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O'Reilly Media, Inc. 介 绍 


为 了 满足 读者 对 网 络 和 软件 技术 知识 的 迫切 需求 ， 世 界 著名 计算 机 图 书 出 版 
机 构 O'Reilly Media, Inc. 授权 电子 工业 出 版 社 , 翻译 出 版 一 批 该 公司 久 负 盛 
名 的 英文 经 典 技术 专著 。 


O’Reilly Media, Inc. 是 世界 上 在 Unix、X、Internet 和 其 他 开放 系统 图 书 领域 
具有 领导 地 位 的 出 版 公司 ， 同 时 也 是 在 线 出 版 的 先锋 。 


从 最 畅销 的 《The Whole Internet User’s Guide & Catalog) (被 纽约 公共 图 书馆 
评 为 20 世 纪 最 重要 的 50 本 书 之 一 ) 到 GNN (最 早 的 Internet 门户 和 商业 网 站 ) ， 
再 到 WebSite {第 一 个 桌面 PC 的 Web 服 务 器 软件 ) ，O"Reilly Media, Inc. 
一 直 处 于 Internet 发 展 的 最 前 沿 。 


许多 书店 的 反馈 表明 ,O'Reilly Media, Inc. 是 最 稳定 的 计算 机 图 书 出 版 商 - 一 
每 一 本 书 都 一 版 再 版 。 与 大 多 数 计算 机 图 书 出 版 商 相 比 ，O"Reilly Media, Inc. 
具有 深厚 的 计算 机 专业 背景 ， 这 使 得 O"Reiliy Media, Inc. 形成 了 一 个 非常 不 
同 于 其 他 出 版 商 的 出 版 方针 。O’Reilly Media, Inc. 所 有 的 编辑 人 员 以 前 都 是 
程序 员 , 或 者 是 顶尖 级 的 技术 专家 。O'Reilly Media, Inc. 还 有 许多 固定 的 作者 
群体 一 一 他 们 本 身 是 相关 领域 的 技术 专家 、 咨 询 专 家 ， 而 现在 编写 著作 ， 
O’Reilly Media, Inc. 依 靠 他 们 及 时 地 推出 图 书 。 因 为 O’ Reilly Media, Inc. A 
地 与 计算 机 业界 联系 着 ， 所 以 O'Reilly Media, Inc. 知道 市 场 上 真正 需要 什么 
图 书 。 
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计算 机 精品 学 习 资料 大 放送 
软考 官方 指定 教材 及 同步 辅导 书 下 载 | 软考 历年 真是 解析 与 答案 
软考 视频 | 考试 机 构 | 考试 时 间 安 排 
Java 一 览 无 余 : Java 视频 教程 | Java SE | Java EE 
Net 技术 精品 资料 下 载 汇 总 : ASP.NET 篇 
Net 技术 精品 资料 下 载 汇 总 : C# 语 言 
.Net 技术 精品 资料 下 载 汇 总 : VB.NET 篇 
撼 世 出 击 : C/C++ 编程 语言 学 习 资料 尽 收 眼底 电子 书 + 视 频 教 程 
Visual C++(VC/MFC) 学 习 电 子 书 及 开发 工具 下 载 
Perl/CGI 脚本 语言 编程 学 习 资 源 下 载 地 址 大 全 
Python 语言 编程 学 习 资料 (电子 书 + 视 频 教程 ) 下 载 汇总 
最 新 最 全 Ruby、Ruby on Rails 精品 电子 书 等 学 习 资 料 下 载 
数据 库 精 品 学 习 资 源 汇总 : MySQL 篇 | SQL Server 篇 | Oracle 篇 
最 强 HTML/xHTML、CSS 精品 学 习 资料 下 载 汇 总 
最 新 JavaScript, Ajax 典藏 级 学 习 资 料 下 载 分 类 汇总 
网 络 最 强 PHP 开发 工具 + 电子 书 + 视 频 教程 等 资料 下 载 汇 总 
UML 学 习 电子 资 下 载 汇总 软件 设计 与 开发 人 员 必 备 
经 典 LinuxCBT 视频 教程 系列 Linux 快速 学 习 视 频 教程 一 帖 通 
天 罗 地 网 :精品 Linux 学 习 资 料 大 收集 (电子 书 + 视 频 教 程 ) Linux 参考 资源 大 系 
Linux 系统 管理 员 必 备 参考 资料 下 载 汇总 
Linux shell、 内 核 及 系统 编程 精品 资料 下 载 汇 总 
UNIX 操作 系统 精品 学 习 资 料 < 电子 书 + 视 频 > 分 类 总 汇 
FreeBSD/OpenBSD/NetBSD 精品 学 习 资源 索引 含 书籍 + 视频 
Solaris/ OpenSolaris 电子 书 、 视 频 等 精华 资料 下 载 索引 
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IT 产业 新 技术 日 新 月 异 ， 令 人 目不暇接 ， 然 而 在 这 其 中 ， 真 正 能 称 得 上 伟大 的 东西 却 室 室 
无 几 。1998 年 ,被 誉 为 "软件 世界 的 爱迪生 ”, 发 明了 BSD、TCP/IP、csh、 vi 和 NFS 的 SUN 
首席 科学 家 Bill Joy 曾经 不 无 调侃 地 说 ,在 计算 机 体系 结构 领域 里 , 缓存 是 唯一 能 称 得 上 伟 
大 的 思想 ， 其 他 的 一 切 发 明和 技术 不 过 是 在 不 同 场景 下 应 用 这 一 思想 而 已 。 在 计算 机 软件 
领域 里 ， 情 形 也 大 体 相似 。 如 果 罗 列 这 个 领域 中 的 伟大 发 明 ， 我 相信 绝 不 会 超过 二 十 项 。 
在 这 个 名 单 当 中 ， 当 然 应 该 包括 分 组 交换 网 络 、Web、Lisp、 哈 希 算法 、UNIX、 编 译 技术 、 
关系 模型 、 面 向 对 象 、XML 这 些 大 名 思 电 的 家 伙 ， 而 正则 表达 式 也 绝对 不 应 该 被 漏 掉 。 正 
则 表达 式 具 有 伟大 技术 发 明 的 一 切 特点 ， 它 简单 、 优 美 、 功 能 强大 、 妙 用 无 穷 。 对 于 很 多 
实际 工作 来 讲 , 正则 表达 式 简直 是 灵丹妙药 ,能够 成 百倍 地 提高 开发 效率 和 程序 质量 .CSDN 
的 创始 人 藉 涛 先生 在 早年 开发 专业 软件 产品 时 ， 就 曾经 体验 过 这 一 工具 的 巨大 威力 ， 并 且 
ARRA. 而 我 的 一 位 从 事 网 络 编辑 工作 的 朋友 , 最 近 也 领略 了 正则 表达 式 的 威力 一 一 
他 用 Perl 开发 了 一 个 不 足 20 行 的 小 程序 ， 使 用 正则 表达 式 将 一 项 原本 每 天 耗 用 10 人 时 的 
工作 在 一 分 钟 之 内 自动 完成 。 而 正则 表达 式 在 生物 信息 学 和 人 类 基因 图 谱 的 研究 中 所 发 挥 
的 关键 作用 ， 更 是 被 传 为 佳话 。 无 论 对 于 软件 开发 者 ， 还 是 从 事 其 他 知识 工作 的 专业 人 士 ， 
正则 表达 式 都 是 最 有 利 的 工具 之 一 。 


所 谓 正 则 表达 式 ， 就 是 一 种 描述 字符 串 结构 模式 的 形式 化 表达 方法 。 在 发 展 的 初期 ， 这 套 
方法 仅 限于 撕 述 正则 文本 ， 故 此 得 名 “正则 表达 式 (regular expression) "。 随 着 正则 表达 式 
研究 的 深入 和 发 展 ， 特 别 是 Perl 语言 的 实践 和 探索 ， 正 则 表达 式 的 能 力 已 经 大 大 突破 了 传 
统 的 、 数 学 上 的 限制 ， 成 为 威力 巨大 的 实用 工具 ， 在 几乎 所 有 主流 语言 中 获得 支持 。 为 什 
么 正则 表达 式 具 有 如 此 巨大 的 魅力 ? 一 方面 ， 因 为 正则 表达 式 处 理 的 对 象 是 字符 串 ， 或 者 
抽象 地 说 ， 是 一 个 对 象 序列 ， 而 这 恰恰 是 当今 计算 机 体系 的 本 质数 据 结构 ， 我 们 围绕 计算 
机 所 做 的 大 多 数 工作 ， 都 归结 为 在 这 个 序列 上 的 操作 ， 因 此 ， 正 则 表达 式 用 途 广阔 。 另 一 
方面 ， 与 大 多 数 其 他 技术 不 同 ， 正 则 表达 式 具有 超 强 的 结构 描述 能 力 ， 而 在 计算 机 中 ， 正 
是 不 同 的 结构 把 无 差别 的 字 节 组 织 成 千差万别 的 软件 对 象 ， 再 组 合成 为 无 所 不 能 的 软件 系 
统 ， 因 此 ， 描 述 了 结构 ， 就 等 于 描述 了 系统 。 在 这 方面 ， 正 则 表达 式 的 地 位 是 独特 的 。 正 
因为 这 两 点 ， 在 现在 的 软件 开发 和 日 常数 据 处 理工 作 中 ， 正 则 表达 式 已 经 成 为 必 不 可 少 的 
工具 。 如 果 一 个 开发 工具 不 支持 正则 表达 式 ， 那 它 就 会 被 视 为 玩具 语言 ， 如 果 -- 个 编辑 器 
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不 支持 正则 表达 式 ， 那 它 就 会 被 成 为 阳春 应 用 。 连 人 们 原本 并 不 指望 应 用 正则 表达 式 的 商 
用 数据 库 ， 各 家 厂商 也 竞相 以 支持 正则 表达 式 为 卖点 。 正 则 表达 式 的 声势 之 隆 ， 是 毋庸 置 
疑 的 。 


非常 奇怪 的 是 ， 这 样 一 个 了 不 起 的 技术 ， 在 我 国 却 并 没有 得 到 充分 推广 。 以 其 价值 而 言 ， 
正则 表达 式 不 但 值得 每 一 个 专业 程序 员 人 掌握 ， 而 且 值 得 所 有 知识 工作 者 去 了 解 。 然 而 现实 
情况 是 ， 不 但 一 般 知 识 工作 者 大 多 闻所未闻 ， 很 多 专业 程序 员 也 视 之 为 展 途 。 为 什么 会 出 
现 这 种 情况 呢 ? 原因 有 二 。 其 一 ， 正 则 表达 式 产生 和 发 展 在 UNIX 文化 体系 之 中 ， 而 我 国 
软件 开发 社 群 的 知识 结构 长 期 受到 微软 的 决定 ，UNIX 文化 影响 甚 微 。 在 2002 年 推出 .NET 
平台 之 前 ， 微 软 在 其 各 项 主流 平台 、 产 品 与 开发 工具 当中 ， 均 未 对 正则 表达 式 给 予 足 够 的 
重视 ， 相 应 地 ， 我 们 的 开发 者 们 对 正则 表达 式 也 就 知之 不 多 。 第 二 ， 也 是 更 重要 的 原因 ， 
就 是 正则 表达 式 并 不 是 那么 好 掌握 的 ， 在 通 向 驾驭 正则 表达 式 强 大 力量 的 道路 上 ， 还 是 有 
那么 几 只 拦路 虎 的 ， 而 要 打 虎 过 岗 ， 不 但 要 花 点 功夫 ， 还 要 有 正确 的 方法 。 


学 习 正 则 表达 式 ， 入 门 不 难 ， 看 一 些 例子 ， 试 着 模仿 模仿 ， 就 可 以 粗 通 ， 并 且 在 工作 中 解 
决 不 少 问题 。 然 而 大 部 分 学 习 者 也 就 就 此 止步 ， 他 们 对 自己 说 :“ 正 则 表达 式 不 过 如 此 , 我 
就 学 到 这 里 了 ， 以 后 现 用 现 学 就 行 了 。 ”他 们 以 为 自己 可 以 像 学 习 其 他 技术 一 样 ， 在 实践 中 
逐渐 提高 正则 表达 式 的 应 用 水 平 。 然 而 事实 上 ， 正 则 表达 式 并 不 是 每 天 都 会 用 到 ， 而 其 帘 
码 般 的 形象 ， 随 着 时 间 的 推移 很 容易 被 忘记 ， 所 以 经 常 发 生 的 情况 是 ， 开 发 者 对 于 正则 表 
达 式 的 记忆 迅速 消 褪 ， 每 次 遇 到 新 的 问题 ， 都 要 查 资料 ， 重 新 唤 回 记忆 ， 对 于 稍微 复杂 一 
点 的 问题 ， 只 好 求助 于 现成 的 解决 方案 。 反 反复 复 ， 长 期 如 此 ， 不 但 应 用 水 平 难以 明显 提 
升 ， 而 且 会 对 这 项 技术 逐渐 产生 一 定 的 恐惧 感 和 厌烦 情绪 。 这 还 只 是 应 用 阶段 ， 正 则 表达 
式 应 用 的 高 级 阶段 ， 要 求 开发 者 还 必须 充分 理解 正则 表达 式 的 能 力 范围 ， 能 够 将 一 些 正则 
表达 式 技术 组 合 应 用 ， 达 成 超 平一 般 想 像 的 效果 。 为 了 高 效 、 正 确 地 解决 实际 问题 ， 有 的 
时 候 其 至 要 求 深 入 理解 正则 表达 式 的 原理 ， 甚 至 对 于 如 何 实现 正则 表达 式 引擎 都 要 有 所 了 
解 ， 在 此 基础 上 ， 规避 陷阱 ， 优 化 设计 ， 提 高 程序 执行 效率 。 要 达到 这 样 的 程度 ， 不 经 过 
系统 的 学 习 是 不 可 能 的 。 


系统 学 习 正 则 表达 式 并 不 是 一 件 容 易 的 事情 ,仅仅 通过 阅读 一 些 “HOW TO 的 快餐 式 文章 是 
不 行 的 ， 必 须 有 更 完整 、 更 系统 的 资料 指导 学 习 。 如 果 你 在 国外 技术 社区 里 询问 如 何 才 能 
系统 学 习 正 则 表达 式 ， 几 乎 所 有 的 领域 专家 都 会 向 你 推荐 一 本 书 一 一 Jeffrey Fried] 的 《精通 
正则 表达 式 》， 也 就 是 本 书 。 


这 本 《精通 正则 表达 式 》 是 系统 学 习 正 则 表达 式 的 唯一 最 权威 著作 。 可 以 说 ， 在 今天 ， 如 
果 想 理解 和 人 掌握 正则 表达 式 ， 想 要 建立 关于 这 一 技术 的 完整 概念 体系 ， 想 充分 发 挥 其 巨大 
能 量 ， 这 本 书 几乎 是 无 法 绕 开 的 必 经 之 路 。 甚 至 可 以 说 ， 如 果 你 没有 读 过 这 本 书 ， 那 么 你 
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对 于 正则 表达 式 的 理解 和 应 用 能 力 一 定 达 不 到 升 堂 入 室 的 程度 。 本 书 第 1 版 出 版 于 十 年 之 
前 ， 自 那 时 起 它 就 成 为 正则 表达 式 领域 最 全 面 、 最 受 欢 迎 的 代表 著作 ， 数 以 万 计 的 读者 通 
过 这 本 书 掌握 了 正则 表达 式 ， 成 为 行家 里 手 。 在 任何 时 候 ， 任 何 地 方 ， 只 要 提 和 到 正则 表达 
式 著作 ， 人 们 都 会 提 到 这 本 书 。 这 本 书 的 质量 之 高 ， 声 誉 之 盛 ， 使 得 几乎 没有 人 企图 挑战 
它 的 地 位 , 从 而 在 正则 表达 式 图 书 领域 形成 独特 的 "一夫 当 关 ”的 局 面 , 称 其 为 正则 表达 式 圣 
经 ， 绝 对 当之无愧 。 


为 什么 这 本 书 能 够 表现 得 如 此 出 色 ? 我 认为 这 其 中 有 三 个 原因 。 其 一 ， 作 者 本 人 具有 多 年 
程序 开发 经 验 ， 理 论 基 础 深厚 ， 实 战 经 验 丰 富 ， 对 正则 表达 式 这 个 主题 透彻 理解 ， 因 此 在 
技术 上 得 心 应 手 ， 底 气 十 足 ， 对 于 技术 上 的 难点 不 回避 、 不 含糊 。 作 者 高 超 的 技术 水 平 是 
本 书 质量 的 强大 保证 。 其 二 ， 作 者 思路 对 头 ， 素 材 组 织 得 当 ， 用 例 丰 富 。 正 则 表达 式 根植 
于 数学 理论 ， 却 又 能 在 日 常 俗 事 上 发 挥 巨大 的 效用 。 写 这 种 类 型 的 技术 ， 思 路 稍微 -偏差 ， 
就 可 能 走 焉 路 ， 不 是 太 理 论 ， 就 是 太 琐碎 ， 不 是 太 枯 燥 ， 就 是 太 浅 薄 ， 实 在 很 难 把 握 。 作 
者 清楚 地 认识 到 ， 这 本 书 的 读者 不 是 计算 机 科学 家 ， 但 也 不 是 满足 于 “ 知 其 然而 不 知 其 所 以 
然 " 的 快餐 式 代码 小 子 ， 而 是 具有 一 定理 论 素 养 ， 却 又 始终 以 实践 为 本 的 专业 开发 者 。 他 们 
需要 的 是 面向 实践 的 理论 和 思想 ， 是 实 实 在 在 的 实战 能 力 ， 只 有 满足 这 种 需要 ， 才 能 够 真 
正 打动 读者 。 通 读 此 书 ， 可 以 说 作者 对 这 一 路 线 的 把 握 十 分 成 功 ， 保 证 了 内 容 大 方向 的 正 
确 。 其 三 ， 这 本 书 的 写法 独具匠心 ， 堪 称 典范 。 技 术 图 书 的 主要 使 命 是 传播 专业 知识 。 而 
专业 知识 分 为 框架 性 知识 和 具体 知识 。 框 架 性 知识 需要 通过 系统 的 阅读 和 学 习 掌握 ， 而 大 
量 的 具体 知识 ， 则 主要 通过 日 常 工作 的 积累 以 及 随 用 随 查 的 的 学 习 来 逐渐 填充 起 来 。 本 书 
前 六 章 ， 以 顺序 式 记 述 的 方式 ， 将 正则 表达 式 的 系统 知识 娓 娓 道 来 ， 读 者 像 看 故事 书 似 的 
就 建立 起 整个 正则 表达 式 的 基本 知识 体系 。 而 后 面 的 内 容 ， 则 是 方便 实际 开发 中 频 发 查阅 
之 用 ， 包 括 各 大 主流 语言 对 正则 表达 式 的 支持 细节 ， 包 含有 大 量 案例 。 这 样 的 写法 ， 完 全 
符合 一 般 和 人 学 习 的 特点 ， 因 此 书 读 起 来 非常 恢 意 ， 非 党 有 趣 ， 用 的 时 候 查 起 来 又 非常 方便 。 
这 样 的 著述 风格 ， 实 在 值得 学 习 。 


读者 可 以 在 没有 任何 正则 表达 式 的 基础 上 开始 阅读 此 书 ， 只 要 勤 动脑 ， 加 强 理解 ， 适 当 动 
手 练习 ， 将 能 够 在 不 长 的 时 间 里 掌握 正则 表达 式 的 思想 和 技术 精华 ， 这 一 点 已 经 被 很 多 人 
验证 过 ， 我 本 人 也 是 这 本 书 的 受益 者 之 一 。 正 因为 这 本 书 独一无二 的 地 位 和 高 度 的 可 读 性 ， 
也 因为 正则 表达 式 作为 一 项 了 不 起 的 技术 发 明 所 具有 的 巨大 威力 ， 我 非常 希望 更 多 的 读者 
能 够 通过 认真 地 学 习 本 书 而 掌握 这 一 强大 技术 ， 并 享受 这 项 技术 带 来 的 快乐 。 


LE 
2007 年 7 月 于 北京 
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译 者 序 


《精通 正则 表达 式 (第 3 版 )》( 即 Mastering Regular Expression, 3rd Edition) 是 - -本 好 书 。 


我 还 记得 ， 自 己 刚 开始 工作 时 ， 就 遇 到 了 关于 正则 表达 式 的 问题 Ota kL): 若 从 
文本 中 抽取 E-mail 地 址 ， 还 可 以 用 字符 串 来 查找 ( 先 定位 到 @ ， 然 后 向 两 端 查找 ) ， 若 要 抽 
取 URL， 简 单 的 文本 查找 就 无 能 为 力 了 。 正 当 我 一 筹 莫 展 之 时 ， 项 目 经 理 说 :“ 可 以 用 正则 
表达 式 ， 去 网 上 找 找 资料 吧 。” 抱 着 这 根 救 命 稻 草 ， 我 搜索 了 之 前 只 是 听 说 过 名 字 的 正则 表 
达 式 的 资料 ， 并 打印 了 java.util.regex (开发 用 的 Java) 的 文档 来 看 。 摸 索 了 半天 ， 我 
的 感觉 就 是 ， 这 玩意 儿 ， 真 神奇 ， 真 复杂 ， 真 好 用 。 


此 后 ， 用 到 正则 表达 式 的 地 方 越 来 越 多 ， 我 也 越 来 越 感觉 到 它 的 重要 ， 然 而 使 用 起 来 却 总 
感觉 捉襟见肘 。 当 时 是 夏天 ， 北 京 非常 热 ， 我 决定 下 班 之 后 不 再 着 急 赶 车 回 家 ， 而 是 在 公 
司 安心 看 看 技术 文档 ， 于 是 邂逅 了 这 本 Mastering Regular Expression。 该 书 原文 是 相当 通畅 
易 懂 的 ， 看 完全 书 大 概 花 了 我 一 周 的 业余 时 间 ， 之 后 便 如 拨 云 见 日 ， 感 觉 峪 然 开朗 原 
来 正则 表达 式 可 以 这 样 用 ， 真 是 奇妙 ， 令 人 拍案 叫绝 。 


此 后 我 运用 正则 表达 式 便 不 用 再 看 什么 资料 了 ， 充 其 量 就 是 查 查 语言 的 具体 文档 ， 表 达 式 
的 基本 模型 和 思路 ， 完 全 是 在 阅读 本 书 时 确立 的 。 也 正 是 因为 细心 阅读 过 本 书 ， 所 以 有 时 
我 能 以 正则 表达 式 解决 某 些 复杂 的 问题 。 我 的 朋友 郝 培 强 (Tinyfool， 昵 称 Tiny) 曾 问 过 我 
这 样 一 个 正则 表达 式 的 问题 : 在 Apache 服务 器 的 Rewrite 规则 中 ， 怎 样 以 一 个 正则 表达 式 
叱 配 “ 除 两 个 特定 子 域名 之 外 的 所 有 其 他 子 域名 "， 其 他 人 的 办 法 都 无 法 满足 要 求 : 要 么 只 
能 匹配 这 两 个 特定 的 子 域名 ， 要 么 必须 依赖 程序 分 支 才能 进行 判断 。 其 实 这 个 问题 ， 是 可 
以 用 一 个 正则 表达 式 匹 配 的 。 事 后 ，Tiny 说 ， 看 来 ， 会 用 正则 的 人 很 多 ， 但 真正 懂得 正则 
的 人 很 少 。 现实 情况 也 确实 如 此 ， 就 我 所 见 ， 不 少 同仁 对 正则 表达 式 的 运用 ， 大 多 是 从 网 
上 找 些 现成 的 表达 式 ， 人 套用 在 自己 的 程序 中 ， 但 对 到 底 该 用 几 个 反 斜 线 转 义 ， 转 义 是 在 字 
符 串 级 别 还 是 表达 式 级 别 进行 的 ， 捕 获 型 括号 是 否 必须 ， 表 达 式 的 效率 如 何 ， 等 等 问题 ， 
往往 都 是 一 知 半 解 ， 甚 至 毫 无 概念 ， 在 Tiny 的 问题 面前 ， 更 是 束手无策 ， 一 筹 莫 展 。 
就 我 个 人 来 说 ， 我 所 掌握 的 正则 表达 式 的 知识 ， 绝 大 多 数 来 自 本 书 。 正 是 依靠 这 些 知 识 ， 
我 几乎 能 以 正则 表达 式 进行 自己 期 望 的 任何 文本 处 理 ， 所 以 我 相信 ， 能 够 耐心 读 完 这 本 书 
的 读者 ， 一 定 能 深入 正则 表达 式 的 世界 ， 若 再 加 以 练习 和 思考 ， 就 能 熟练 地 依靠 它 解 决 各 
种 复杂 的 问题 (其 中 就 包括 类 似 Tiny 的 问题 ) 了 。 
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x YO 
EEF, MEIE (Virushuo) 的 介绍 ， 我 参加 了 博文 视点 的 试 译 活动 ， 很 幸运 地 获得 了 翻译 
本 书 的 机 会 。 有 机 会 与 大 家 分 享 这 样 一 本 好 书 ， 我 深 感 荣幸 。500 多 页 的 书 ， 拖 拖拉 拉 ， 也 
花 了 半年 多 的 时 间 。 虽 然 之 前 读 过 原著 ， 积 累 了 一 些 运用 正则 表达 式 的 经 验 ， 也 翻译 过 数 
十 万 字 的 资料 ， 但 要 尽 可 能 准确 、 贴 切 地 传达 原文 的 阅读 感觉 ， 我 仍 感 颇 费 心力 。 部 分 译 
文 在 确认 理解 原文 的 基础 上 ， 要 以 符合 中 文 习惯 的 方式 加 以 表述 仍然 颇 费 周折 (例如 ， 直 
译 的 “正则 表达 式 确实 容许 出 现 这 种 错误 ”， 原 文 的 意思 是 “这 样 的 错误 超出 了 正则 表达 式 
的 能 力 ”"， 最 后 修改 为 “出 现 这 样 的 错误 ， 不 能 人 怪 正则 表达 式 ” 或 “这 样 的 问题 ， 错 不 在 正 
则 表达 式 ” )。 另 有 部 分 词语 ， 虽 可 译 为 中 文 ， 但 为 保证 阅读 的 流畅 ， 没 有 翻译 (例如 ,“ 它 
包含 特殊 和 一 般 两 个 部 分 ,特殊 部 分 之 所 以 是 特殊 的 ,原因 在 于 …… ” ,此 处 special 和 normal 
是 专 指 ， 故 翻译 为 “ 它 包含 special 和 normal 两 个 部 分 ，special 部 分 之 所 以 得 名 ， 原 因 在 
于 ……")， 这 样 的 处 理 ， 相 信和 不 会 影响 读者 的 理解 。 


在 本 书 翻译 结束 之 际 ， 我 首先 要 感谢 替 炬 ， 他 的 引荐 让 我 获得 了 翻译 这 本 书 的 机 会 ， 还 要 
感谢 博文 视点 的 周 筠 老师 ， 她 谨慎 严格 的 工作 态度 ， 时 刻 提醒 我 不 能 马虎 对 待 这 本 经 典 之 
作 ， 还 有 本 书 的 责编 晓 菲 ， 她 为 本 书 的 编辑 和 校对 做 了 大 量 细致 而 深入 的 工作 。 


另外 我 还 要 感谢 东北 师范 大 学 文学 院 的 主 确 老师 ， 在 我 求学 期 间 ， 王 老师 给 予 我 诸多 指点 ， 
离 校 时 间 愈 长 ， 愈 是 怀念 和 庆幸 那 段 经 历 ， 可 以 说 ， 没 有 与 他 的 相识 ， 便 没有 我 的 今天 。 


翻译 过 程 中 ， 我 虽 力 求 把 担 原文 ， 语 言 通 物 ， 但 翻译 中 的 错误 或 许 是 在 所 难免 的 ， 对 此 本 
人 愿 负 全 部 责任 。 希 望 广大 读者 发 现 错误 能 及 时 与 我 和 出 版 社 联系 以 便 重印 时 修正 ， 或 是 
以 勘误 的 形式 公布 出 来 以 惠及 其 他 读者 。 如 果 读 者 有 任何 想法 或 建议 ， 欢 迎 给 我 写 信 ， 我 
的 邮件 地 址 是 : yusheng.regex@gmail.com, 


如 今 正 则 表达 式 已 经 成 为 几乎 所 有 主流 编程 语言 中 的 必 备 元 素 : Java, Perl, Python, PHP, 
Ruby…… 莫 不 如 此 ， 甚 至 功能 稍 强大 一 些 的 文本 编辑 工具 ， 都 支持 正则 表达 式 。 尤 其 是 在 
Web 兴起 之 后 ， 开 发 任务 中 的 一 大 部 分 甚至 全 部 ， 都 是 对 字符 串 的 处 理 。 相 比 简单 的 字符 
串 比 较 、 查 找 、 替 换 ， 正 则 表达 式 提 供 了 强大 得 多 的 处 理 能 力 (最 重要 的 是 ， 它 能 够 处 理 
“符合 某 种 抽象 模式 ”的 字符 串 ， 而 不 是 固化 的 、 具 体 的 字符 串 )。 熟 练 运用 它们 ， 能 够 节 
省 大 量 的 开发 时 间 ， 甚 至 解决 一 些 之 前 看 来 是 mission impossible 的 问题 。 


本 书 是 讲解 正则 表达 式 的 经 典 之 作 。 其 他 介绍 正则 表达 式 的 资料 ， 往 往 局 限于 具体 的 语法 
和 函数 的 讲解 ， 于 语法 细节 处 着 墨 太 多 ， 忽 略 了 正则 表达 式 本 身 。 这 样 ， 读 者 虽然 对 关于 
正则 表达 式 的 具体 规定 有 所 了 解 ， 但 终究 是 只 见 树木 不 见 森 林 ， 遇 上 复杂 的 情况 ， 往 往 束 
手 无 策 ， 举 步 维 艰 。 而 本 书 自 第 1 版 开始 便 着 力 于 教会 读者 “以 正则 表达 式 来 思 郑 (think 
regular expression)”， 回 读者 讲授 正则 表达 式 的 精 人 (正则 表达 式 的 各 种 流派 、 匹 配 原理 、 
优化 原则 ,等 等 ), 而 不 拘泥 于 具体 的 规定 和 形式 。 了 解 这 些 精 任 ， 再 辅 以 具体 操作 的 文档 ， 
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译 者 序 T. xi 
RSET MA “FACE, TEA”, MEEA EURAK, ALE 
很 快 作出 判断 ， 而 不 必 寞 目 堂 试 ， 徒 费 工 夫 。 


不 了 解 正 则 表达 式 的 读者 ， 可 循序 渐进 ， 依 次 阅读 各 章 ， 即 便 之 前 完全 未 接触 过 正则 表达 
式 ， 读 过 前 两 章 ， 也 能 在 心中 描绘 出 概略 的 图 谱 。 第 3、4、5、6 章 是 本 书 的 重点 ， 也 是 核 
心 价值 所 在 ， 它 们 分 别 介绍 了 正则 表达 式 的 特性 和 流派 、 匹 配 原理 、 实 用 诀窍 以 及 调 校 措 
施 。 这 样 的 知识 与 具体 语言 无 关 ， 适 用 于 几乎 所 有 的 语言 和 工具 (当然 ， 如 果 使 用 DFA 引 
w, #6 章 的 价值 要 打 些 折扣 )， 所 谓 “大 象 无 形 "， 便 是 如 此 。 读 者 如 能 仔细 研读 ， 悉 心 
揣摩 , 之 后 解决 各 种 问题 时 , ee Rot BEBE. 7, 8. 9, 10 章 分 别 讲 解 了 Perl, Java, NET, 
PHP 中 正则 表达 式 的 用 法 ， 看 来 类 似 参考 手册 ， 其 实 是 对 前 面 4 章 知 识 的 包装 ， 将 抽象 的 
知识 辅 以 具体 的 语言 规定 ， 以 具体 的 形式 表现 出 来 。 所 以 ， 心 急 的 读者 ， 在 阅读 这 些 章 节 
之 前 ， 最 好 先 通读 第 3、4、5、6 章 ， 以 便 更 好 地 理解 其 中 的 逻辑 和 思路 。 


相信 仔细 阅读 完 本 书 的 读者 ， 定 会 有 登 堂 入室 的 感觉 。 不 但 能 见识 到 正则 表达 式 各 种 令 人 
眼花 综 乱 的 特性 ， 更 能 够 深入 了 解 表 达 式 、 匹 配 、 引 擎 背后 的 原理 ， 从 而 写 出 复杂 、 神 奇 
而 又 高 效 的 正则 表达 式 ， 快 速 地 解决 工作 中 的 各 种 问题 。 


eR 
2007 年 6 月 于 北京 
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前 


Preface 


了 路 


本 书 关注 的 是 一 种 强大 的 工具 一 --“ 正 则 表达 式 ”"。 它 将 教会 读者 如 何 使 用 正则 表达 式 解决 
各 种 问题 ， 以 及 如 何 充分 使 用 支持 正则 表达 式 的 工具 和 语言 。 许 多 关于 正则 表达 式 的 文档 
都 没有 介绍 这 种 工具 的 能 力 ， 而 本 书 的 目的 正 是 让 读者 “精通 ”正则 表达 式 。 


许多 种 工具 都 支持 正则 表达 式 (文本 编辑 器 、 文 字 处 理 软 件 、 系 统 工 具 、 数 据 库 引 擎 ， 等 
等 )， 不 过 ， 要 想 充 分 挖 据 正 则 表达 式 的 能 力 ， 还 是 应 当 将 它 作 为 编程 语言 的 一 部 分 。 例 如 
Java, JScript, Visual Basic, VBScript, JavaScript. ECMAScript, C, C++, C#, elisp, Perl, 
Python, Tcl, Ruby, PHP, sed 和 awk。 事 实 上， 在 一 些 用 上 述 语言 编写 的 程序 中 ， 正 则 表 
达 式 扮演 了 极其 重要 的 角色 。 


正则 表达 式 能 够 得 到 众多 语言 和 工具 的 支持 是 有 原因 的 : 它们 极其 有 用 。 从 较 低 的 屋面 上 
来 说 ， 正 则 表达 式 描 述 的 是 一 串 文 本 (a chunk of text) 的 特征 。 读 者 可 以 用 它 来 验证 用 户 
输入 的 数据 ， 或 者 也 可 以 用 它 来 检索 大 量 的 文本 。 从 较 高 的 层面 上 来 说 ， 正 则 表达 式 容许 
用 户 掌控 他 们 自己 的 数据 一 一 控制 这 些 数据 ， 让 它们 为 自己 服务 。 掌 担 正 则 表达 式 ， 就 是 
掌握 自己 的 数据 。 


本 书 的 价值 
The Need for This Book 


本 书 的 第 1 RSF 1996 年 , 以 满足 当时 存在 的 需求 。 那 时 还 没有 关于 正则 表达 式 的 详尽 文 
档 ， 所 以 它 的 大 部 分 能 力 还 没有 被 发 掘 出 来 。 正 则 表达 式 文档 倒是 存在 ， 但 它们 都 立足 于 
“低层 次 视角 ”。 我 认为 ， 那 种 情况 就 好 像 是 教 一 些 人 英文 字母 ， 然 后 就 指望 他 们 会 说 话 。 
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II 前 言 


第 2 版 与 第 1 版 间隔 了 五 年 半 的 时 间 ， 这 期 间 ， 互 联网 迅速 流行 起 来 ， 正 则 表达 式 的 形式 
也 有 了 极 大 的 扩张 ， 这 或 许 并 不 是 巧 含 。 几 乎 所 有 工具 软件 和 程序 语言 支持 的 正则 表达 式 
也 变 得 更 加 强大 和 易于 使 用 。Perl、Python、Tcl、Java 和 Visual Basic 都 提供 了 新 的 正则 支 
持 。 新 出 现 的 支持 内 建 正则 表达 式 的 语言 ， 例 如 PHP、Ruby、C#， 也 已 经 发 展 壮 大 ， 流 行 
开 来 。 在 这 段 时 间 里 ， 本 书 的 核心 一 一 如 何 真正 理解 正则 表达 式 ， 以 及 如 何 使 用 正则 表达 
式 一 一 仍然 保持 着 它 的 重要 性 和 参考 价值 。 


不 过 ,第 1 版 已 经 逐渐 脱离 了 时 代 ， 必 须 加 以 修订 ， 才 能 适应 新 的 语言 和 特性 ， 也 才能 对 
应 正则 表达 式 在 互联 网 世界 中 越 来 越 重要 的 地 位 。 第 2 版 出 版 于 2002 年 , 这 一 年 的 里 程 碑 
是 java.util.regex, Microsoft .NET Framework 和 Perl 5.8 的 诞生 。 第 2 KS PRE Tux 
些 内 容 。 关于 第 2 版 , 我 唯一 的 遗憾 就 是 , 它 没有 提 及 PHP。 自 第 2 版 诞生 以 来 的 4 年 里 ， 
PHP 的 重要 性 一 直 在 增加 ， 所 以 ， 弥 补 这 一 缺憾 是 非常 迫切 的 。 


第 3 版 在 前 面 的 章节 中 增加 了 PHP 的 相关 内 容 ， 并 专门 为 理解 和 应 用 PHP 的 正则 表达 式 
增加 了 一 章 全 新 的 内 容 。 另 外 ， 该 版 对 Java 的 章节 也 进行 了 修订 ， 做 了 可 观 的 扩充 ， 反 映 
了 Javai.5 和 Javal.6 的 新 特性 。 


目标 读者 

Intended Audience 

任何 有 机 会 使 用 正则 表达 式 的 人 ， 都 会 对 本 书 感 兴趣 。 如 果 您 还 不 了 解 正 则 表达 式 能 提供 
的 强大 功能 ， 这 本 书展 示 的 全 新 世界 将 会 让 您 受益 匪 浅 。 即 使 您 认为 自己 已 经 是 黎 担 正则 
表达 式 的 高 手 了 ， 这 本 书 也 能 够 深化 您 的 认识 。 第 1 版 面世 后 ， 我 时 常会 收 到 读者 的 电子 
邮件 反映 说 “ 读 这 本 书 之 前 ， 我 以 为 自己 了 解 正则 表达 式 ， 但 现在 我 才 真 正 了 解 ”。 


以 与 文本 打交道 为 工作 (如 Web FE) 的 程序 员 将 会 发 现 ， 这 本 书 绝对 称 得 上 是 座 金 矿 ， 
因为 其 中 冀 藏 了 各 种 细节 、 上 暗示、 讲解 ， 以 及 能 够 立刻 投入 到 实用 中 的 知识 。 在 其 他 任何 
地 方 都 难以 找到 这 样 丰富 的 细节 。 


正则 表达 式 是 一 种 思想 一 一 各 种 工具 以 各 种 方式 (数目 远 远 超过 本 书 的 列举 ) 来 实现 它 。 
如 果 读 者 理解 了 正则 表达 式 的 基本 思想 ， 掌 担 某 种 特殊 的 实现 就 是 易如反掌 的 事情 。 本 书 
关注 的 就 是 这 种 思想 ， 所 以 其 中 的 许多 知识 并 不 受 例子 中 所 用 的 工具 软件 和 语言 的 束缚 。 
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如 何 阅读 


Hew to Read This Book 


这 本 书 既 是 教程 ， 又 是 参考 手册 ， 还 可 以 当 故 事 看 ， 这 取决 于 读者 的 阅读 方式 。 熟 悉 正 则 
表达 式 的 读者 可 能 会 觉得 ， 这 本 书 马 上 就 能 当 作 一 本 详细 的 参考 手册 ， 读 者 可 以 直接 跳 到 
自己 需要 的 章节 。 不 过 ， 我 并 不 鼓励 这 样 做 。 

要 想 充分 利用 这 本 书 ， 可 以 把 前 6 章 作为 故事 来 读 。 我 发 现 ， 某 些 思维 习惯 和 思维 方式 的 
确 有 助 于 完整 的 理解 ， 不 过 最 好 还 是 从 这 几 章 的 讲解 中 学 习 它们 ， 而 不 是 仅仅 记 住 其 中 的 
几 张 列表 。 

故事 是 这 样 的， 前 6 章 是 后 面 4 章 一 一 包括 Perl, Java, NET 和 PHP 一 一 的 基础 。 为 了 帮 
助 读者 理解 每 一 部 分 ， 我 交叉 使 用 各 章 的 知识 ， 为 了 提供 尽 可 能 方便 的 索引 ， 我 投入 了 大 
量 的 精力 (全书 中 有 超过 1 200 处 交叉 引用 ， 它 们 以 符号 加 页 码 的 形式 标注 )。 


在 读 完整 个 故事 以 前 ， 最 好 不 要 把 本 书 作 为 参考 手册 。 在 开始 阅读 之 前 ， 读 者 可 以 参考 其 
中 的 表格 ， 例 如 第 92 页 的 图 表 ， 想 象 它 代表 了 需要 掌握 的 相关 信息 。 但 是 ， 还 有 大 量 背 景 
信息 没有 包含 在 图 表 中 ， 而 是 隐藏 在 故事 里 。 读 者 阅读 完整 个 故事 之 后 ， 会 对 这 些 问 题 有 
个 清晰 的 概念 ， 哪 些 能 够 记 起 来 ， 哪 些 需要 温习 。 


组 织 结构 


Organization 


全 书 共 10 章 ， 可 以 从 逻辑 上 粗略 地 分 为 三 类 ， 下 面 是 总 体 概 览 


导 引 
第 1 章 : 介绍 正则 表达 式 的 基本 概念 。 
第 2 章 : 考察 利用 正则 表达 式 进行 文本 处 理 的 过 程 。 
第 3 章 : 提供 对 于 特性 和 工具 软件 的 概述 以 及 简 史 。 
细节 
第 4 章 : 揭示 了 正则 表达 式 的 工作 原理 的 细节 。 
第 5 章 : 利用 第 4 章 的 知识 ， 继 续 学 习 各 种 例子 。 
第 6 章 : 详细 讨论 效率 问题 。 
特定 工具 的 知识 
BTR: 详细 讲解 Perl 的 正则 表达 式 。 
第 8 章 : 讲解 Sun 提供 的 java.util.regex 包 。 
第 9 章 : 讲解 .NET 的 语言 中 立 的 正则 表达 式 包 。 
第 10 章 : 讲解 PHP 中 提供 正则 功能 的 preg 套件 。 
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导 引 部 分 会 把 完全 的 门外汉 变 成 “对 问题 有 感觉 ”的 新 手 。 对 正则 表达 式 有 一 定 经 验 的 读 
者 完全 可 以 快速 翻阅 这 些 章节 ， 不 过 ， 即 使 是 对 于 相当 有 经 验 的 读者 来 说 ， 我 仍然 要 特别 
推荐 第 3 章 。 


© 第 1 章 正则 表达 式 入 门 ， 是 为 完全 的 门外汉 准备 的 。 我 以 应 用 相当 广泛 的 程序 egrep 
为 例 来 介绍 正则 表达 式 ， 我 也 提供 了 我 的 视角 : 如 何 “理解 ”正则 表达 式 ， 来 为 后 面 
章节 所 包括 的 高 级 概念 打下 坚实 的 基础 。 即 使 是 有 经 验 的 读者 ， 浏 览 本 章 也 会 有 所 收 
获 。 


”第 2 章 入 门 示例 拓展 ， 考 察 了 支持 正则 表达 式 的 程序 设计 语言 的 真实 文本 处 理 过 程 。 
附加 的 示例 提供 了 后 面 章节 详细 讨论 的 基础 ， 也 展示 了 高 级 正则 表达 式 调 校 背后 的 重 
要 思考 过 程 。 为 了 让 读者 学 会 “正则 表达 式 的 套路 "， 这 章 出 现 了 一 个 复杂 问题 ， 并 讲 
解 了 两 种 全 然 不 相关 的 工具 如 何 分 别 通过 正则 表达 式 来 解决 它 。 


” BIR 正则 表达 式 的 特性 和 流派 概览 , 提供 了 当前 经 常 使 用 的 工具 的 多 种 正则 表达 式 
的 概览 。 因 为 历史 的 混乱 ， 当 前 常用 的 正则 表达 式 的 类 型 可 能 差异 巨大 。 此 章 同时 介 
绍 了 正则 表达 式 以 及 使 用 正则 表达 式 的 工具 的 历史 和 演化 历程 。 本 章 末 尾 也 提供 了 “高 
级 话题 引导 ”"。 此 引导 是 读者 学 习 此 后 高 级 内 容 的 路 线 图 。 


细节 


The Details 


了 解 了 基础 知识 之 后 ， 读 者 需要 和 弄 明白 “如 何 使 用 ”及 “这 么 做 的 原因 ”。 就 像 “ 授 人 以 渔 ” 
的 典故 一 样 ， 真 正 懂得 正则 表达 式 的 读者 ， 能 够 在 任何 时 间 、 任 何 地 点 应 用 关于 它 的 知识 。 


° 第 4 章 表达 式 的 匹配 原理 ， 循 序 渐进 地 导入 本 书 的 核心 。 它 从 实践 的 角度 出 发 ， 考 察 
了 正则 引擎 真实 工作 的 重要 的 内 在 机 制 。 懂 得 正则 表达 式 如 何 处 理工 作 细节 ， 对 读者 
掌握 它们 大 有 神 益 。 


。 第 5 章 正则 表达 式 实用 技巧 ,教育 读者 在 高 层次 和 实际 的 运用 中 应 用 知识 。 这 一 章 会 
详细 讲解 常见 (但 复杂 ) 的 问题 ， 目 的 在 于 拓展 和 深化 读者 对 于 正则 表达 式 的 认识 。 
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° 第 6 章 打造 高 效 正 则 表达 式 , 考察 真实 生活 中 大 多 数 程序 设计 语言 提供 的 正则 表达 式 
的 高 效 结果 。 本 章 运用 第 4 章 和 第 5 章 详细 讲解 的 知识 ， 来 开发 引擎 的 能 力 ， 并 避免 
其 中 的 缺陷 。 


特定 工具 的 知识 


Tool-Specific Information 


学 习 完 第 4、5、6 章 的 读者 ， 不 太 需 要 知道 特定 的 实现 。 不 过 ， 我 还 是 用 了 4 个 整 章 来 讲 
解 4 种 流行 的 语言 。 


© 第 7 音 Perl， 详 细 讲解 了 Perl 的 正则 表达 式 ，Perl 大 概 是 目前 最 流行 的 主要 的 正则 表 
达 式 编程 语言 。 在 Perl 中 ， 与 正则 表达 式 相 关 的 操作 符 只 有 四 个 ， 但 它们 组 合 出 的 选 
项 和 特殊 情形 带 来 了 大 量 的 程序 选项 一 一 同时 还 有 陷阱 。 对 没有 经 验 的 开发 人 员 来 说 ， 
这 种 极其 丰富 的 选项 能 够 让 他 们 迅速 从 概念 转向 程序 ， 当 然 也 可 能 是 雷 场 。 本 章 的 详 
细 介 绍 有 助 于 给 读者 指出 一 条 光明 大 道 。 





。 第 8 章 Java, 详细 介绍 了 java.util.regex 包 , 从 Java 1.4 以 后 , 它 已 经 成 为 了 Java 
语言 的 标准 部 分 。 本 章 主要 关注 的 是 Java 1.5， 但 也 提 及 了 它 与 Java 1.4.2 和 Java 1.6 
的 差别 。 


。 第 9 章 NET, 是 微软 尚未 提供 的 .NET 正则 表达 式 库 的 文档 。 无 论 使 用 VB.NET、C#、 
C++, JScript, VBScript, ECMAScript 还 是 使 用 .NET 组 件 的 其 他 语言 ， 本 章 都 提供 了 
详细 内 容 ， 让 读者 能 够 充分 利用 .NET 的 正则 表达 式 。 


° 第 10 章 PHP, 简要 介绍 了 PHP 内 做 的 多 个 正则 引擎 , 并 详细 介绍 了 preg 正则 表达 式 
套件 (regex engine) 的 类 型 和 API， 这 些 是 由 PCRE 正则 表达 式 库 提供 的 。 


体例 说 明 


Typographical Conventions 


在 进行 (或 者 谈论 ) 详细 的 和 复杂 的 文本 处 理 时 ， 保 持 精 确 性 是 很 重要 的 。 差 一 个 空格 字 
符 ， 可 能 导致 截然 不 同 的 结果 ， 所 以 我 会 在 本 书 中 使 用 下 面 的 惯例 : 


。 ”正则 表达 式 以 this, 的 形式 出 现 。 两 端的 符号 表示 “里 面 有 一 个 正则 表达 式 ”, 而 正则 
表达 式 文 字 (例如 用 来 检索 的 表达 式 ) 以 “this” 的 形式 出 现 。 有 时 候 ， 省 略 两 端的 
符号 和 单 引号 也 不 会 造成 歧义 ， 此 时 我 会 省 略 它们 。 同 样 ， 屏 幕 截图 通常 以 原来 的 样 
子 出 现 ， 而 不 会 用 到 上 面 两 种 符号 。 


‘il 
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在 文字 文本 和 表达 式 内 部 的 省 略 号 会 被 特别 标 出 。 例 如 ，[…] 表 示 一 对 方 括号 ， 之 间 
的 内 容 无 关 紧 要 ， 而 [表示 一 对 方 括号 ， 其 中 包含 三 个 句点 。 


如 果 没 有 明确 数字 ， 可 能 很 难 判断 “a ”b” 之 间 有 多 少 空格 ， 所 以 出 现在 正则 表达 式 
和 文字 文本 中 的 空格 以 “*” 表 示 。 这 样 “a…*b” 就 清楚 多 了 。 


我 使 用 可 见 的 制 表 符 ， 换 行 符 和 回 车 字符 : 





有 时 候 ， 我 会 使 用 下 画 线 或 有 色 背 景 高 亮 标注 文字 文本 或 正则 表达 式 的 一 部 分 。 下 面 
这 句 话 中 ， 下 画 线 的 部 分 表示 表达 式 真 正 匹 配 的 部 分 : 


Because ‘cat, matches “IE'indicates*your'cat'is… instead of the word ‘cat’, 


we realize... 
这 个 例子 中 ， 下 画 线 的 部 分 高 亮 标 记 了 表达 式 中 添加 的 字符 : 


To make this useful, we can wrap “Subjecct1Datel with parentheses, and append a 


j a è [ 2 = 
colon and a space. This yields | (Subject | Date) :*) 


本 书包 含 了 大 量 的 细节 和 例子 ， 所 以 我 设置 了 超过 1 200 处 的 交叉 引用 ， 帮 助 读者 理 
解 。 它 们 通常 表示 为 “= 123 ， 意 思 是 “请 参阅 第 123 页 ”。 举 个 例子 :“… 的 说 明 在 
表 8-2 中 (=367) 。 


练习 


Fxercises 


有 时 候 我 会 问 个 问题 ， 帮 助 读者 理解 正在 讲解 的 概念 ， 尤 其 是 在 前 几 章 这 种 问题 更 多 。 它 
们 并 不 是 摆设 ， 我 希望 读者 在 继续 阅读 之 前 认真 想 想 。 请 记 住 我 的 话 ， 不 要 忽略 它们 的 重 
要 意义 ， 本 书 中 这 样 的 问题 并 不 多 。 它 们 可 以 当 作 自我 测试 题 ， 如 果 不 是 几 句 话 就 能 说 明 
白 的 问题 ， 最 好 是 在 复习 相关 章节 之 后 再 继续 阅读 。 


为 了 避免 读者 直接 看 到 问题 的 答案 ， 我 使 用 了 一 点 技巧 : 问题 的 答案 都 必须 翻 页 才能 看 到 。 
通常 你 必须 翻 过 一 页 才能 看 到 标 着 令 的 答案 。 这 样 答案 在 你 思考 问题 的 时 候 没 法 直接 看 到 ， 
但 又 很 容易 获得 。 
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链接 、 代 码 、 勤 误 及 联系 方式 


Links, Code Errata, and Contacts 


写 第 1 版 时 ， 我 发 现 修改 书本 上 的 URL， 保 持 与 实际 一 致 是 件 很 费 工 夫 的 事情 ， 所 以 ， 我 
没有 在 书后 罗列 一 个 URL 附录 ， 而 是 提供 统一 的 地 址 : 


http://regex.info 


在 这 里 你 可 以 找到 与 正则 表达 式 相关 的 链接 ， 书 中 的 所 有 代码 ， 可 检索 的 索引 以 及 其 他 资 
源 。 本 书 也 可 能 存在 错误 @@， 所 以 我 提供 了 勘误 。 


如 果 你 找到 书 中 的 错误 ， 或 者 仅仅 是 希望 给 我 写 几 句 话 ， 请 写 邮 件 到 : jfriedl@regex.info。 


我 们 已 尽力 核验 本 书 所 提供 的 信息 ， 尽 管 如 此 ， 仍 不 能 保证 本 书 完全 没有 瑕 症 ， 而 网 络 世 
界 的 变化 之 快 ， 也 使 得 本 书 永 不 过 时 的 保证 成 为 不 可 能 。 如 果 读 者 发 现 本 书 内 容 上 的 错误 ， 
不 管 是 鞭 字 、 错 字 、 语 意 不 清 ， 其 至 是 技术 错误 ， 我 们 都 竭诚 虚心 接受 读者 指教 。 如 果 您 
有 任何 问题 ， 请 按照 以 下 的 联系 方式 与 我 们 联系 。 


奥 莱 理 软件 (北京) 有限 公司 


北京 市 海淀 区 知春 路 49 号 和 格 玛 公 寓 B 座 809 室 
邮政 编码 : 100080 
网 页 http:/Avww.oreilly.com.cn 
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Perl/CGI 脚本 语言 编程 学 习 资 源 下 载 地 址 大 全 
Python 语言 编程 学 习 资料 (电子 书 + 视 频 教程 ) 下 载 汇总 
最 新 最 全 Ruby、Ruby on Rails 精品 电子 书 等 学 习 资 料 下 载 
数据 库 精 品 学 习 资 源 汇总 : MySQL 篇 | SQL Server 篇 | Oracle 篇 
最 强 HTML/xHTML、CSS 精品 学 习 资料 下 载 汇 总 
最 新 JavaScript, Ajax 典藏 级 学 习 资 料 下 载 分 类 汇总 
网 络 最 强 PHP 开发 工具 + 电子 书 + 视 频 教程 等 资料 下 载 汇 总 
UML 学 习 电子 资 下 载 汇总 软件 设计 与 开发 人 员 必 备 
经 典 LinuxCBT 视频 教程 系列 Linux 快速 学 习 视 频 教程 一 帖 通 
天 罗 地 网 :精品 Linux 学 习 资 料 大 收集 (电子 书 + 视 频 教 程 ) Linux 参考 资源 大 系 
Linux 系统 管理 员 必 备 参考 资料 下 载 汇总 
Linux shell、 内 核 及 系统 编程 精品 资料 下 载 汇 总 
UNIX 操作 系统 精品 学 习 资 料 < 电子 书 + 视 频 > 分 类 总 汇 
FreeBSD/OpenBSD/NetBSD 精品 学 习 资源 索引 含 书籍 + 视频 
Solaris/ OpenSolaris 电子 书 、 视 频 等 精华 资料 下 载 索引 
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正则 表达 式 入 站 


Introduction to Regular Expressions 


想象 一 下 这 幅 图 景 : 你 需要 检索 某 台 Web 服务 器 上 的 页 面 中 的 重复 单词 (例如 “this this”), 
进行 大 规模 文本 编辑 时 ， 这 是 一 项 常见 的 任务 。 程 序 必须 满足 下 面 的 要 求 : 


。 ”能 检查 多 个 文件 ， 挑 出 包含 重复 单词 的 行 ， 高 亮 标记 每 个 重复 单词 (使 用 标准 ANSI 
的 转 义 字符 序列 (escape sequence) ) ， 同 时 必须 显示 这 行文 字 来 自 哪个 文件 。 
。 REBIER, 即使 两 个 单词 一 个 在 某 行 末尾 而 另 一 个 在 下 一 行 的 开头 , 也 算 重复 单词 。 


。 能 进行 不 区 分 大 小 写 的 覃 我 ， 例如 “7 ,the…" ， 重 复 单词 之 间 可 以 出 现任 意 数量 的 
SAFE (Sine A RENA honn. 


。。 能 查找 用 HTML tag 9 RAN. Wve File LC 例如 ， 
ani sit is <E i ry</B> very important- 


这 些 问题 并 不 容易 解决， ene 曾 用 一 个 工具 来 检查 
已 经 写 好 的 部 分 ， 我 惊奇 地 发 WA Hin, 能 够 解决 这 种 问题 的 编程 
语言 有 许多 ， 但 是 用 支持 正则 表达 式 单 。 


正则 表达 式 eat xen), 和 HE tiki / 处 理工 具 。 正则 表达 式 本 身 ， 
we 通 ; ARAR mien en, : otation) ， 赋 予 使 用 者 描述 
提供 的 产 外 支持 ， 正 则 ces en. 删除 、 分 离 、 

















和 
二 D 
GS j Š, EN D Ni NS ect LN 
ONE wa See 
AS tt i CS SN 
DN SN 
à d ¥ eh) | eRe 
RŠ < ir. 了 Fa AR 
译注 1: whitespace 244 “Z 6^, space A "S, Ts 将 两 者 分 别 翻 译 为 “空白 字 
符 ” 与 “空格 符 ”。 
L 
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2 第 ! 章 : 正则 表达 式 入 门 


正则 表达 式 的 使 用 难度 只 相当 于 文本 编辑 器 的 搜索 命令 ， 但 功能 却 与 完整 的 文本 处 理 语 言 
一 样 强大 。 本 书 将 向 读者 展示 正则 表达 式 提 高 生产 率 的 诸多 办 法 。 它 会 教导 读者 如 何 学 会 
用 正则 表达 式 来 思考 (think regular expressions) ， 以 便于 掌握 它们 ， 充 分 利用 它们 的 强大 功 
能 。 


如 果 使 用 当今 流行 的 程序 设计 语言 ， 解 决 重复 单词 问题 的 完整 程序 可 能 仅仅 只 需要 几 行 代 
码 。 使 用 一 个 正则 表达 式 的 搜索 和 替换 命令 ， 读 者 就 可 以 查找 文档 中 的 重复 单词 ， 并 把 它 
们 标记 为 高 亮 。 加 上 另 一 个 ， 你 可 以 删除 所 有 不 包含 重复 单词 的 行 (只 留 下 需要 在 结果 中 
出 现 的 行 )。 最 后 ， 利 用 第 二 个 正则 表达 式 ， 你 可 以 确保 结果 中 的 所 有 行 都 以 它 所 在 文件 的 
名 字 开 头 。 在 下 一 章 里 ， 我 们 会 看 到 用 Perl 和 Java 编写 的 程序 。 


宿主 语言 (例如 Perl, Java 以 及 VB.NET) 提供 了 外 围 的 处 理 支 持 , 但 是 真正 的 能 力 来 自 正 
则 表达 式 。 为 了 驾驭 这 种 语言 ， 满 足 自己 的 需求 ， 读 者 必须 知道 如 何 构 建 正 则 表达 式 ， 才 
能 识别 符合 要 求 的 文本 ， 同 时 忽略 不 需要 的 文本 。 然 后 ， 就 可 以 把 表达 式 和 语言 支持 的 构 
建 方式 结合 起 来 ， 真 正 处 理 这 些 文本 (加 入 合适 的 高 亮 标记 代码 ， 删 除 文本 ， 修 改 文本 ， 
等 等 )。 


解决 实际 问题 


Solving Real Problems 


掌握 正则 表达 式 ， 可 能 带 来 超 乎 你 之 前 想象 的 文本 处 理 能 力 。 每 一 天 ， 我 都 依靠 正则 表达 
式 解 决 各 种 大 大 小 小 的 问题 (通常 的 情况 是 ， 问 题 本 身 并 不 复杂 ， 但 没有 正则 表达 式 就 成 
了 大 问题 )。 


要 说 明正 则 表达 式 的 价值 ， 可 以 举 一 个 用 正则 表达 式 解 决 大 而 重要 的 问题 的 例子 ， 但 是 它 
不 一 定 能 代表 旺 则 表达 式 在 平时 解决 的 那些 “不 值 一 提 ”(uninteresting) 的 问题 。 这 里 的 “不 
值 一 提 是 指 这 类 问题 并 不 能 成 为 读 盗 ， 可 是 不 解决 它们 ， 你 就 没 法 继续 干 活 。 


举人 外 简单 的 例子 ， 我 需要 检查 许多 文件 (事实 上 ， 本 书 的 手稿 存放 在 70 个 文件 中 ) ， 确 保 
每 一 和 中 e'seesiee” 出 现 的 次 数 与 “Resetsize” 的 一 样 多 。 为 了 应 付 复杂 的 情况 ， 我 还 
需要 考虑 大 小写 的 情况 (举例 来 说 ，“setsIzE” 也 算 做 “setsize')。 人 工 检 查 32 000 íF 
文字 显然 不 现实 。 
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解决 实际 问题 3 


即便 使 用 文本 编辑 器 的 “单词 查找 ”功能 ， 也 不 够 方便 ， 尤 其 是 对 所 有 文件 进行 同样 的 操 
作 ， 何 况 还 需要 考虑 所 有 可 能 的 大 小 写 情况 。 


正则 表达 式 就 是 解决 这 个 问题 的 灵丹妙药 。 只 需要 一 个 简单 的 命令 ， 我 就 能 够 检查 所 有 的 
文件 ， 获 得 我 需要 知道 的 结果 。 时 间 是 : 写 命令 大 概 15 秒 ， 检 索 所 有 的 数据 实际 只 花 了 2 
秒 。 这 真是 棒 极 了 (如果 您 想 知 道 这 是 怎么 做 到 的 ， 不 妨 现 在 就 翻 到 第 36 T)! 


再 举 一 个 例子 ， 我 曾 帮 助 一 个 朋友 处 理 远 端 机 器 上 的 某 些 E-mail， 他 希望 我 把 他 邮箱 文件 
中 的 消息 作为 列表 发 送 给 他 。 我 可 以 把 整个 文件 导入 文本 编辑 器 ， 手 工 删除 所 有 信息 ， 只 
留 下 邮件 头 中 的 几 行 ， 作 为 内 容 的 列表 。 尽 管 文件 不 是 很 大 ， 连 接 速 度 也 不 算 慢 ， 这 样 的 
任务 还 是 很 耗费 时 间 而 且 很 乏味 。 而 且 ， 宕 见 他 的 邮件 正文 ， 也 令 我 尴 绽 。 


正则 表达 式 再 一 次 提供 了 帮助 ! 我 用 一 个 简单 的 命令 (使 用 本 章 稍 后 提 到 的 一 个 常用 工具 
egrep) 显示 每 封 邮件 的 From: 和 subject :字段 。 为 了 告诉 egrep 我 需要 提取 哪些 行 ， 我 使 
用 了 正则 表达 式 “(Fromisbuject) :1。 


朋友 得 到 这 个 列表 之 后 ， 让 我 找 一 封 特殊 的 (5 000 行 !) 邮件 。 使 用 文本 编辑 器 或 者 邮件 
系统 来 提取 一 封 邮件 无 疑 非常 耗 时 。 相 反 ， 我 借助 另 一 个 工具 (叫做 sed) ， 同 样 使 用 正则 
表达 式 来 描述 文件 中 我 需要 的 内 容 。 这 样 ， 我 能 迅速 而 方便 地 提取 和 发 送 需 要 的 邮件 。 


使 用 正则 表达 式 节省 下 来 的 时 间或 许 并 不 能 让 人 “激动 "， 但 总 比 把 时 间 消 耗 在 文本 编辑 器 
中 要 好 。 如 果 我 不 知道 有 正则 表达 式 这 种 玩意 儿 ， 根 本 就 不 会 想到 还 有 别 的 解决 办 法 。 所 
以 ， 这 个 故事 告诉 我 们 ， 正 则 表达 式 和 相关 的 工具 能 够 让 我 们 以 可 能 未 曾 想 过 的 方式 来 解 
决 问题 。 


一 旦 掌握 了 正则 表达 式 ， 你 就 会 知道 到 它 简 直 是 工具 中 的 无 价 之 宝 ， 你 也 难以 想象 之 前 那 
些 没有 正则 表达 式 的 日 子 是 怎么 度 过 的 ( 注 1)。 


全 面 掌 担 正则 表达 式 是 很 有 用 的 。 本 书 提供 了 掌握 这 种 技能 所 需要 的 信息 ， 我 同时 也 希望 ， 
这 本 书 也 提供 了 促使 你 学 习 的 动机 。 


注 1: Mit TiVo (译注 : TiVo 是 一 种 数字 录像 机 ， 具 有 许多 神奇 的 功能 ， 例 如 根据 用 户 的 偏好 
自动 录制 节目 ， 自 动 跳 过 电视 台 的 广告 ， 等 等 ) 的 人 都 体验 过 这 种 感觉 。 
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4 第 l 章 : 正则 表达 式 入 门 


作为 编程 语言 的 正则 表达 式 


Regular Expressions as a Language 


如 果 没 有 正则 表达 式 相关 经 验 , 读者 可 能 无 法 理解 上 个 例子 中 正则 表达 式 “(FromlSubject) +) 
的 意义 ， 但 是 这 个 表达 式 并 没有 什么 神奇 之 处 。 其 实 魔术 本 身 也 不 神奇 ， 只 是 缺乏 训练 的 
普通 观众 不 明白 魔术 师 掌 操 的 那些 技巧 而 已 。 如 果 你 也 懂得 如 何在 手中 藏 一 张 牌 ， 那 么 ， 

熟练 之 后 ， 你 也 可 以 “ 变 魔 术 "。 外 语 也 是 这 样 一 一 一 旦 掌握 了 一 门 外 语 ， 你 就 不 会 觉得 它 
REET. 


以 文件 名 做 类 比 


The Filename Analogy 


选择 这 本 书 的 读者 ， 大 概 对 “正则 表达 式 ” 多 少 有 点 认识 。 即 便 没 有 ， 也 应 该 熟悉 其 中 的 
基本 概念 。 


我 们 都 知道 ，report.txt 是 一 个 文件 名 ， 但 是 ， 如 果 你 用 过 Unix 或 者 DOS/Windows 的 话 ， 
就 会 知道 “* .txt” 能 够 用 来 选择 多 个 文件 。 在 此 类 文件 名 ( 称 为 “文件 群 组 ”file globs 或 
者 “通配符 ”wildcards) 中 ， 有 些 字符 具有 特殊 的 意义 。 星 号 表示 “任意 文本 ”， 问 号 表示 
“任意 单个 字符 "。 所 以 ,文件 群 组 “* .txt” 以 能 够 匹配 字符 的 *) 符 号 开头 , 以 普通 文字 
txt 结尾 ， 所 以 ， 它 的 意思 是 : 选择 以 任意 文本 开头 ， 以 .txt 结尾 的 所 有 文件 。 


大 多 数 系统 都 提供 了 少量 的 附加 特殊 字符 (additional special characters) ， 但 是 ， 总 的 来 说 ， 
这 些 文件 名 模式 (filename patterns) 的 表达 能 力 还 很 有 限 。 不 过 ， 因 为 这 类 问题 的 领域 很 
狭 窗 一 一 只 涉及 文件 名 ， 所 以 这 算 不 上 缺陷 。 


不 过 ,处 理 普通 的 文本 就 没有 这 么 简单 了 。 散 文 、 诗 、 程 序 代码 、 报 表 、HTML、 表 格 、 单 
词 表 …… 到 你 想 得 出 的 任何 文本 。 如 果 某 种 特殊 的 需求 足够 专业 ， 例 如 “选择 文件 ”"， 我 们 
可 以 发 明 一 些 特殊 的 办 法 和 工具 来 解决 问题 。 不 过 ， 近 年 来 ， 一 种 “通用 的 模式 语言 ” 
(generalized pattern language) 已 经 发 展 起 来 ， 它 功能 强大 ， 撕 述 能 力也 很 强 ， 可 以 用 来 解 
决 各 种 问题 。 不 同 的 程序 以 不 同 的 方式 来 实现 和 使 用 这 种 语言 ， 但 是 综合 来 说 ， 这 种 功能 
强大 的 模式 语言 和 模式 本 身 被 称 为 “正则 表达 式 ” (regular expression), 
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作为 编程 语言 的 正则 表达 式 5 


以 语言 做 类 比 


The Language Analogy 


完整 的 正则 表达 式 由 两 种 字符 构成 。 特 殊 字符 (special characters， 例 如 文件 名 例子 中 的 * ) 
称 为 “元 字符 ”(metacharacters), 其 他 为 “文字 ”(literal), 或 者 是 普通 文本 字符 (normal text 
characters)。 正 则 表达 式 与 文件 名 模式 (filename pattern) 的 区 别 就 在 于 ， 正 则 表达 式 的 元 
字符 提供 了 更 强大 的 描述 能 力 。 文 件 名 模式 只 为 有 限 的 需求 提供 了 有 限 的 元 字符 ， 但 是 正 
则 表达 式 “ 语 言 ”为 高 级 应 用 提供 了 丰富 而 且 描述 力 极 强 的 元 字符 。 


为 了 便于 理解 ， 我 们 可 以 把 正则 表达 式 想 象 为 普通 的 语言 ， 普 通 字 符 对 应 普通 语言 中 的 单 
词 ， 而 元 字符 对 应 语法 。 根 据 语 言 的 规则 ， 按 照 语法 把 单词 组 合 起 来 ， 就 会 得 到 能 传达 思 
想 的 文本 。 在 E-mail 的 例子 中 ， 我 用 正则 表达 式 ~(Fromlsubject) :1 来 寻找 以 “From:， 
或 者 “Subject : ”开头 的 行 。 下 画 线 标注 的 就 是 特殊 字符 ， 稍 后 我 们 将 解释 它们 的 含义 。 


就 像 学习 任 何 一 门 外 语 一 样 ， 第 一 眼看 上 去 ， 正 则 表达 式 很 不 好 理解 。 这 也 是 那些 对 它 只 
有 粗浅 了 解 或 者 根本 不 了 解 的 人 觉得 正则 表达 式 很 神奇 的 原因 。 但 是 ， 就 像 学 日 语 的 人 很 
PRE FE PIE te PER AL A AE ETE 2) 一 样 ， 读 者 很 快 也 能 够 彻底 明白 下 面 这 个 正则 表 
达 式 的 含义 : 


s!<emphasis>([0-9]+(\.[0-9]+){3})</emphasis>!<inet>$l</inet>! 


这 个 例子 取 自 一 个 Perl 脚本 ， 我 的 编辑 器 用 它 来 修改 手稿 。 手 稿 的 作者 错误 地 使 用 了 
<emphasis> 这 个 tag 来 标注 IP 地址 (类似 209.204.146.22 这 样 由 数字 和 点 号 构成 的 字符 
串 )。 其 中 的 奥妙 就 在 于 使 用 Perl 的 文本 替换 命令 ， 使 用 : 


‘<emphasis>([{0-9}+(\.{0-9]+) {3}) </emphasis>; 


把 IP 地 址 两 端的 tag 替换 为 <inet>， 而 不 改动 其 他 的 <emphasis> 标 签 。 在 后 面 的 章节 中 ， 
读者 会 了 解 这 个 表达 式 的 构造 细节 ， 然 后 就 能 按照 自己 的 需求 ， 在 自己 的 应 用 程序 或 者 开 
发 语言 中 应 用 这 些 技巧 。 


2: 这 向 话 的 惠 思 是 ，“ 正 则 表达 式 很 简单 !"。 有 趣 的 是 ， 就 像 第 3 章 介绍 的 ,“ 正 则 表达 式 ” 
这 个 术语 来 自 形 式 代数 。 问 我 这 本 书 的 主题 的 人 ， 如 果 对 这 个 概念 不 邢 喜 ， 听 到 “正则 表 
达 式 ”多 半 会 满腔 茫然 。 正 则 表达 式 在 日 文中 写作 ， 正 规 表 现 ， 同 它 的 英文 名 字 一 样 不 好 
理解 ， 但 是 我 用 日 语 来 回答 通常 会 令 人 反应 更 奇怪。 因为 在 日 文中 ,“ 正 则 ”(regular) 很 
不 幸 地 与 一 个 表示 “生殖 器 官 ” 的 医学 术语 发 音 相同 。 读 者 可 以 想象 ， 在 我 没有 解释 之 前 ， 
人 们 会 有 多 么 惊奇 。 
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本 书 的 目的 


你 或 许 不 需要 重复 把 <emphasis> 赫 换 为 <inet> 的 工作 ,不 过 很 可 能 需要 解决 “把 这 些 文字 
替换 为 那些 文字 ”的 问题 。 本 书 的 目的 不 是 提供 具体 问题 的 解决 办 法 ， 而 是 教会 读者 利用 
正则 表达 式 来 思考 ， 解 决 遇 到 的 各 种 问题 。 


正则 表达 式 的 思维 框架 


The Regular-Expression Frame of Mind 


我 们 将 会 看 到 ， 完 整 的 正则 表达 式 由 小 的 构建 模块 单元 (building block unit) 组 成 。 每 个 单 
独 的 构建 模块 都 很 简单 ， 不 过 因为 它们 能 够 以 无 穷 多 种 方式 组 合 ， 将 它们 结合 起 来 实现 特 
殊 目 标 必须 依靠 经 验 。 所 以 ， 本 章 提供 了 有 关 正 则 表达 式 的 若干 概念 的 总 体 描述 。 这 一 章 
并 没有 艰 碎 的 内 容 ， 而 是 为 本 书 其 余 章 节 的 知识 打下 基础 ， 在 深入 探索 正则 表达 式 之 前 ， 
把 相关 事宜 曾 释 清楚 。 


某 些 例 子 看 起 来 可 能 有 点 无 聊 《 因 为 它们 确实 无 聊 ) ， 但 它们 代表 了 一 类 需要 完成 的 任务 ， 
只 是 读者 目前 可 能 还 没有 意识 到 。 即 使 觉得 每 个 例子 的 意义 都 不 大 也 不 必 担 心 ， 慢 慢 理 解 
其 中 的 道理 就 好 。 这 就 是 本 章 的 目的 。 


对 于 有 部 分 经 验 的 读者 


If You Have Some Regular-Expression Experience 


如 果 读 者 已 经 熟悉 正则 表达 式 ， 这 些 综述 便 设 有 太 大 价值 ， 但 务必 不 要 忽略 它们 。 你 或 许 
明白 某 些 元 字符 的 基本 意义 ， 但 某 些 思维 和 看 待 正则 表达 式 的 方式 可 能 是 你 不 了 解 的 。 


就 像 真 正 懂 演 奏 和 仅仅 会 弹 奏 之 间 差 别 现 异 一 样 ， 了 解 正则 表达 式 和 真正 理解 正则 表达 式 
并 不 是 一 回 事 。 某 些 内 容 可 能 会 重复 读者 已 经 了 解 的 知识 ， 但 方式 可 能 与 之 前 的 不 同 ， 而 
且 这 些 方 式 正 是 真正 理解 正则 表达 式 的 第 一 步 。 


检索 文本 文件 ， Egrep 


Searching Text Files: Egrep 


文本 检索 是 正则 表达 式 最 简单 的 应 用 之 一 一 一 许多 文本 编辑 器 和 文字 处 理 软件 都 提供 了 正 
则 表达 式 检索 的 功能 。 最 简单 的 就 是 egrep。 在 指定 了 正则 表达 式 和 需要 检索 的 文件 之 后 ， 
egrep 会 尝试 用 正则 表达 式 来 匹配 每 个 文件 的 每 一 行 ， 并 显示 能 够 匹配 的 行 。 


it 
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——— vv 了 


许多 系统 一 一 例如 DOS, MacOS, Windows, Unix 等 等 一 一 都 对 应 有 免费 提供 的 egrep。 在 
本 书 的 网 页 http-//regex.info 上 可 以 找到 获得 对 应 读者 操作 系统 的 egrep 拷贝 的 链接 。 


回 到 第 3 页 的 E-mail 的 例子 ,真正 用 来 从 E-mail 文件 中 提取 结果 的 命令 如 图 1-1 所 示 。egrep 
把 第 一 个 命令 行 参数 视 为 一 个 正则 表达 式 ， 剩 下 的 参数 作为 待 搜 检索 的 文件 名 。 注 意 ， 图 
1-1 中 的 单 引号 并 不 是 正则 表达 式 的 一 部 分 ， 而 是 根据 command shell 需要 添加 的 ( 注 3)。 

使 用 egrep ht, 我 通常 用 单 引号 来 包围 正则 表达 式 。 如果 要 在 支持 对 正则 表达 式 提供 了 完整 
支持 的 程序 设计 语言 中 使 用 正则 表达 式 一 一 这 是 下 一 章 开头 的 内 容 ， 重 要 的 问题 是 知道 特 
殊 字符 有 哪些 ， 具 体 文本 是 什么 ,针对 什么 对 象 (什么 表达 式 ， 什 么 工具 软件 )， 以 及 按 何 
种 顺序 解释 这 些 字符 。 


shell 中 的 引号 
提交 给 egrep 的 正则 表达 式 


Ht 
rs egrep ‘*(From|Subject): 7% mailbox-file 


第 一 个 命令 行 参数 





图 1-1: 通过 命令 行 调 用 egrep 


我 们 马上 就 能 明白 ， 这 个 正则 表达 式 的 各 个 部 分 都 是 什么 意思 ， 但 已 经 知道 某 些 字符 具有 
特殊 含义 的 读者 或 许 能 够 猜 出 大 概 了 。 在 这 里 , “^, 和 |, 都 是 正则 表达 式 的 元 字符 ， 它 们 与 
其 他 字符 结合 起 来 ， 实 现 我 们 期 望 的 功能 。 


如 果 一 个 正则 表达 式 不 包括 任何 egrep 支持 的 元 字符 , 它 就 成 了 一 个 简单 的 “ 纯 文本 ”检索 。 
例如 ， 在 一 个 文件 中 检索 "cat,， 会 显示 任何 包含 cat 这 3 个 连续 字母 的 行 。 例 如 ， 它 包 
括 所 有 出 现 了 vacation 的 行 。 


注 3: command shell 是 操作 系统 的 一 部 分 ， 用 来 接收 用 户 的 命令 ,执行 用 户 请 求 的 程序 ， 在 我 使 
用 的 shell 中 ， 单 引号 用 来 分 组 命令 参数 ， 告 诉 shell 不 必 关 心 其 中 的 内 容 。 如 果 不 这 样 写 ， 
shell 或 许 会 认为 ， 我 在 正则 表达 式 中 使 用 的 “*” 是 需要 解释 的 文件 名 模式 的 一 部 分 。 而 
这 不 是 我 的 意思 ， 所 以 我 用 单 引号 在 shell 中 “屏蔽 (hide)” 元 字符 。 使 用 COMMAND .COM 
或 者 CMD .EXE 的 Windows 用 户 可 能 需要 使 用 双 引 号 而 不 是 单 引号 . | 
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即便 这 行文 本 中 不 包含 单词 cat, vacation 中 包含 的 c'a't 序列 仍然 符合 匹配 条 件 。 如 宁 
某 行 中 包含 vacation, egrep 就 会 把 它 显示 出 来 。 关 键 就 在 于 ， 此 处 进行 的 正则 表达 式 搜 
索 不 是 基于 “单词 ”的 一 一 egrep 能 够 理解 文件 中 的 字 节 和 行 ， 但 它 完 全 不 理解 英语 (或 者 
其 他 任何 语言 ) 的 单词 、 句 子 、 段 落 ， 或 者 是 其 他 复杂 概念 。 





Egrep 元 字符 


Egrep Metacharacters 


现在 我 们 来 看 egrep 中 支持 正则 表达 式 功 能 的 元 字符 。 我 会 用 几 个 例子 来 简要 介绍 它们 , 把 
详细 的 例子 和 描述 留 到 后 面 的 章节 。 


印刷 体例 在 开始 之 前 ,请 务必 回顾 前 言 第 V 页 上 解释 的 体例 说 明 。 本 书 使 用 了 一 些 新 的 文 
字形 式 ， 所 以 某 些 体例 读者 初次 接触 可 能 并 不 熟悉 。 


行 的 起 始 和 结束 


Start and End of the Line 


RRA FERRIC RS tS METAS ST, 在 检查 一 行文 本 时 ，^ 代表 一 
行 的 开始 ，5$) 代表 结束 。 我 们 曾经 看 到 ， 正 则 表达 式 cat, 和 寻找 的 是 一 行文 本 中 任意 位 置 的 
cart, [HÆ cati 只 寻找 行 首 的 c*a*t 一 一 "^ 用 来 把 匹配 文本 (这 个 表达 式 的 其 他 部 分 匹 
配 的 字符 )“ 锚 定 ”(anchor) 在 这 一 行 的 开头 。 同 样 ，cats 只 寻找 位 于 行 末 的 cast, 例如 
以 scat 结尾 的 行 。 


读者 最 好 能 养 成 按照 字符 来 理解 正则 表达 式 的 习惯 。 例 如 ， 不 要 这 样 : 
cat) 匹配 以 cat 开头 的 行 
而 应 该 这 样 理解 : 





“ca 匹配 的 是 以 c 作为 一 行 的 第 一 个 字符 ， 紧 接 一 个 a， 紧 接 一 个 t 的 文本 。 


这 两 种 理解 的 结果 并 无 差异 ， 但 按照 字符 来 解读 更 易于 明白 新 遇 到 的 正则 表达 式 的 内 部 逻 
辑 。egrep 会 如 何 解释 cats OS 和 单个 的 “了 呢 ? O 请 翻 到 下 页 查看 答案 。 


脱 字符 号 和 美元 符号 的 特别 之 处 就 在 于 ， 它 们 匹配 的 是 一 个 位 置 ， 而 不 是 具体 的 文本 。 当 
然 , 有 很 多 方式 可 以 匹配 具体 文本 。 在 正则 表达 式 中 , 除了 使 用 cat, 之 类 的 普通 字符 ,还 
可 以 使 用 下 面 几 节 介 绍 的 元 字符 。 
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字符 组 


Character Classes 
匹配 若干 字符 之 一 


如 果 我 们 需要 搜索 的 是 单词 “grey”， 同 时 又 不 确定 它 是 否 写 作 “gray”， 就 可 以 使 用 正则 表 
达 式 结构 体 (construct) '[…],。 它 容许 使 用 者 列 出 在 某 处 期 望 匹配 的 字符 , 通常 被 称 作 字 符 
组 (character class (译注 2) ) ‘e: 匹配 字符 e, ‘a: 匹配 字符 a, 而 正则 表达 式 '[ea] ,能 匹配 a 
或 者 e。 所 以 ,gr [ealy, 的 意思 是 : 先 找到 g， 跟 着 是 一 个 +r， 然后 是 一 个 a 或 者 e， 最 后 
是 一 个 y。 我 很 不 擅长 拼写 ， 所 以 总 是 用 正则 表达 式 从 一 大 堆 英 文 单词 中 找到 正确 的 拼写 。 
我 经 常 使 用 的 一 个 正则 表达 式 是 'sep [ealr [ealte;， 因 为 我 从 来 都 记 不 住 这 个 单词 到 底 是 
写作 “seperate”,， “separate”, “separete”， 还 是 别 的 什么 样子 。 匹 配 的 结果 的 就 是 正确 的 拼 
法 ， 而 正则 表达 式 就 是 我 的 领路 人 。 


请 注意 , 在 字符 组 以 外 , 普通 字符 (例如 'gr (aelys RY ‘gs 和 上) 都 有 “ 接 下 来 是 (and then)” 
的 意思 一 一 “首先 匹配 'g/， 接 下 来 是 'r,……”。 这 与 字符 组 内 部 的 情况 是 完全 相反 的 。 字 
符 组 的 内 容 是 在 同一 个 位 置 能 够 匹配 的 若干 字符 ， 所 以 它 的 意思 是 “或 ”。 


来 看 另 一 个 例子 ， 我们 还 必须 考虑 单词 的 第 一 个 字母 为 大 写 的 情况 ， 例 如 ' [ss]mith,。 请 
记 住 ， 这 个 表达 式 仍 然 能 够 匹配 内 媒 在 其 他 单词 里 头 的 smith (或 者 是 smith)， 例 如 
blacksmith。 在 综述 阶段 ， 我 不 打算 为 这 种 情况 费 太 多 笔墨， 但 是 这 确实 是 某 些 新 手 遇 到 
的 问题 的 根源 。 等 了 解 了 更 多 的 元 字符 以 后 ， 我 会 介绍 一 些 办 法 来 解决 单词 媒 套 的 问题 。 


在 一 个 字符 组 中 可 以 列举 任意 多 个 字符 。 例 如 '[123456] ,匹配 1 到 6 中 的 任意 一 个 数字 。 
这 个 字符 组 可 以 作为 “<H[123456] > 的 一 部 分 ， 用 来 匹配 =-H1>、<H2>、<H3> 等 等 。 在 搜索 
HTML 代码 的 头 文件 时 这 非常 有 用 。 


在 字符 组 内 部 ,字符 组 元 字符 (character-class metacharacter)“-”( 连 字符 ) 表示 一 个 范围 
‘<H[1-6] >) 55 '<H(123456] > 是 完全 一 样 的 。[0-9], 和 5a-z], 是 常用 的 匹配 数字 和 小 写字 
母 的 简便 方式 。 多 重 范围 也 是 容许 的 ， 例 如 '[0123456789abcdefABCDEF] | 可 以 写作 
'[0-9a-fA-F]! (或 者 也 可 以 写作 '[A-Fa-f0-9],， 顺 序 无 所 谓 )。 这 3 个 正则 表达 式 非常 适 
用 于 处 理 十 六 进 制 数字 。 我 们 还 可 以 随心 所 和 欲 地 把 字符 范围 与 普通 文本 结合 起 来 : 
'[0-9A-2_!.?]1 能 够 匹配 一 个 数字 、 大 写字 母 、 下 画 线 、 人 惊叹 号 、 点 号 ， 或 者 是 问号 。 


请 注意 ， 只 有 在 字符 组 内 部 ， 连 字符 才 是 元 字符 -一 否则 它 就 只 能 匹配 普通 的 连 字 符号 。 其 
实 ， 即 使 在 字符 组 内 部 ， 它 也 不 一 定 就 是 元 字符 。 如 果 连 字符 出 现在 字符 组 的 开头 ， 它 表 
示 的 就 只 是 一 个 普通 字符 ， 而 不 是 一 个 范围 。 同 样 的 道理 ， 问 号 和 点 号 通常 被 当 作 元 字符 
处 理 , 但 在 字符 组 中 则 不 是 如 此 说 明白 一 点 就 是 ，[0-9&A-z_:.?]! 里 面 , 真正 的 特殊 字符 
就 只 有 那 两 个 连 字符 )。 


译注 2: 台湾 翻译 为 “字符 集 ”"， 但 通常 “字符 集 ” 指 的 是 character set， 为 避免 混淆， 此 处 翻译 
为 “字符 组 ”。 


(tl 
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分 析 ^catSi、^S 和 


4 第 8 页 问题 的 答案 


‘cats; 文字 意义 ， 匹配 的 条 件 是 ， 行 开头 (显然 ， 每 一 行 都 有 开头 )， 然 后 是 字母 
cat, RBATAA, 


应 用 意义 : 只 包含 cat 的 行 一 一 没有 多 余 的 单词 、 空 白字 符 …… 只 有 ‘car’, 

文字 意义 ; 匹配 的 条 件 是 ， 行 开头 ， 然 后 就 是 行 末 尾 。 

应 用 意义 ; 空 行 (没有 任何 字符 ， 包 括 空白 字符 ) 。 

文字 意义 ， 匹 配 条 件 是 行 的 开头 。 

应 用 意义 : 无 意义 | 因为 每 一 行 部 有 开头 ,所 以 每 一 行者 能 匹配 一 一 空 行 也 
不 例外 。 





不 妨 把 字符 组 看 作 独 立 的 微型 语言 。 在 字符 组 内 部 和 外 部 , 关于 元 字符 的 规定 ( 哪 
些 是 元 字符 ， 以 及 它们 的 意义 ) 是 不 同 的 。 


我 们 很 快 就 会 看 到 更 多 的 例子 。 


排除 型 字符 组 


FAs 取代 […]， 这 个 字符 组 就 会 匹配 任何 未 列 出 的 字符 。 例 如 ，[^1-6]) 匹 配 除 了 1 
到 6 以 外 的 任何 字符 。 这 个 字符 组 中 开头 的 “表示 “排除 (negate)”， 所 以 这 里 列 出 的 不 
是 希望 匹配 的 字符 ， 而 是 不 希望 匹配 的 字符 。 


读者 可 能 注意 到 了 ， 这 里 的 和 第 8 页 的 表示 行 首 的 脱 字 符 是 一 样 的 。 字 符 确实 相同 ， 但 意 
义 截 然 不 同 。 英 语 里 的 “wind ， 根 据 情境 的 不 同 ， 可 能 表示 一 阵 强 烈 的 气流 ( 风 )， 也 可 
能 表示 给 钟表 上 发 条 ， 元 字符 也 是 如 此 。 我 们 已 经 看 过 用 来 表示 范围 的 连 字符 的 例子 。 只 
有 在 字符 组 内 部 (而 且 不 是 第 一 个 字符 的 情况 下 )， 连 字符 才能 表示 范围 。 在 字符 组 外 部 ， 
“表示 一 个 行销 点 (line anchor)， 但 是 在 字符 组 内 部 (而且 必 须 是 紧 接 在 字符 组 的 第 一 个 方 
括号 之 后 ) ， 它 就 是 一 个 元 字符 。 请 不 要 担心 一 一 这 就 是 最 复杂 的 情况 ， 接 下 来 的 内 容 比 这 
简单 。 
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来 看 另 一 个 例子 ， 我 们 需要 在 一 堆 英 文 单词 中 搜索 出 一 些 特殊 的 单词 : 在 这 些 单词 中 ， 字 
母 a 后 面 的 字母 不 是 v。 用 正则 表达 式 来 表示 ， 就 是 s[^u],。 用 这 个 正则 表达 式 来 搜索 我 
手头 的 数据 ， 确 实 得 到 了 一 些 结果 ， 但 显然 不 多 ， 其 中 还 有 些 是 我 没 见 过 的 英文 单词 。 


下 面 是 结果 (我 输入 的 命令 用 粗 体 表示 ): 


$ egrep 'q[{*u)' word.list 

Iraqi 

Iraqian 

miqra 

qasida 

qintar 

qoph 

zaqqums 
其 中 有 两 个 单词 值得 注意 : 伊拉克 “Iraq” 和 澳大利亚 航空 公司 的 名 字 “Qantas”"。 尽 管 它们 
都 在 word.list 文件 中 ， 但 都 不 包含 在 egrep ERP, AAU? Cw, ABBAS 


一 页 来 检查 你 的 答案 。 


请 记 住 ， 排 除 型 字符 组 表示 “匹配 一 个 未 列 出 的 字符 (match a character that's not listed)”, 
而 不 是 “不 要 匹配 列 出 的 字符 (don't match what is listed)”。 这 两 种 说 法 看 起 来 一 样 ， 但 是 
Iraq 的 例子 说 明了 其 中 的 细微 差异 。 有 一 种 简单 的 理解 排除 型 字符 组 的 办 法 ， 就 是 把 它们 
看 作 普 通 的 字符 组 ， 里 面包 含 的 是 除了 “排除 型 字符 组 中 所 有 字符 ”以 外 的 字符 。 


用 点 号 匹配 任意 字符 


Matching Any Character with Dot 


元 字符 .，( 通 常 称 为 点 号 dot 或 者 小 点 point) 是 用 来 匹配 任意 字符 的 字符 组 的 简便 写法 。 
如 果 我 们 需要 在 表达 式 中 使 用 一 个 “匹配 任何 字符 ”的 占 位 符 (placeholder), AASR 
方便 。 例 如 ， 如 果 我 们 需要 搜索 03/19/76, 03-19-76 或 者 03.19.76, 不 怕 麻 烦 的 话 用 一 
个 明确 容许 “/*'、'-'、' .的 字符 组 来 构建 正则 表达 式 ， 例 如 '03[-./]19[-./1761/。 也 可 
以 简单 地 尝试 03.19.761 


读者 第 一 次 接触 这 个 表达 式 时 ， 可 能 还 不 清楚 某 些 情况 。 在 03[-./]19[-./176! 中 ,点 号 
并 不 是 元 字符 ， 因 为 它们 在 字符 组 内 部 ( 记 住 ， 在 字符 组 里 面 和 外 面 ， 元 字符 的 定义 和 意 
义 是 不 一 样 的 )。 这 里 的 连 字符 园 样 也 不 是 元 字符 ， 因 为 它们 都 紧 接 在 [ 或 者 [之 后 。 如 
果 连 字符 不 在 字符 组 的 开头 ， 例 如 . -/],， 就 是 用 来 表示 范围 的 ， 在 本 例 中 就 是 错误 的 用 
法 。 


iil 
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测验 答案 


4 第 11 页 问题 的 答案 

Ait A'au AMA ‘Qantas’ RH ‘Iraq’ 7 

Qantas 无 法 匹配 的 原因 是 ,正则 表达 式 要 求 小 写 g， 而 Qantas 中 的 口 是 大 写 和 的 。 如 果 
我 们 改 用 QI^ul ， 就 能 匹配 Qantas， 但 是 其 他 单词 又 不 在 结果 中 了 ， 因 为 它们 不 包括 
大 写 Q。[Qq] [^u] 则 能 找到 上 面 所 有 的 单词 。 


Iraq 的 例子 有 点 迷 夕 人。 正则 表达 式 要 求 q 之 后 蛇 中 一 个 u 以 外 的 字符 ,这 就 排除 了 
q 外 在 行 尾 的 情况 。 通 常 来 说 ， 文 本 行 的 结 足 都 有 一 个 换行 字符 ， 但 是 我 首先 没有 提 
到 (EREE) egrep 会 在 检查 正则 表达 式 之 前 把 这 些 换行 符 去 掉 、 所 以 在 行 尾 的 gq 之 
后 ， 没 有 能 够 匹配 uu 以 外 的 字符 。 

AREA MASH A ( 注 4)。 我 向 你 保证 ， 如 果 egrep 保留 换行 符 (许多 其 他 软件 会 
保留 这 些 符号 )， 或 者 Irag 后 紧 接着 空格 或 者 其 他 单词 ， 这 一 行 就 能 匹配 。 理 解 工具 
软件 的 细节 固然 很 重要 ， 但 现在 我 只 希望 读者 能 通过 这 个 例子 认识 到 : 一 个 字符 组， 
即使 是 排险 型 字符 姐 ， 也 需要 匹配 一 个 字符 。 





在 '03.19.76, 中 ， 点 号 是 元 字符 一 一 它 能 够 匹配 任意 字符 (包括 我 们 期 望 的 连 字符 、 句 号 
和 和 斜 线 )。 不 过 ， 我 们 也 需要 明白 ， 点 号 可 以 匹配 任何 字符 ， 所 以 这 个 正则 表达 式 也 能 够 匹 
配 下 面 的 字符 串 :; ‘lottery numbers: 19 203319 7639’ 





所 以 ，03[-./119[-./176) 更 加 精确 , 但 是 更 难 读 , 也 更 难 写 。03 .19.76, 更 容易 理解 , 但 
是 不 够 细致 。 我 们 应 该 选择 哪 一 个 呢 ? 这 取决 于 你 对 需要 检索 的 文本 的 了 解 ， 以 及 你 需要 
达到 的 准确 程度 。 一 个 重要 但 常见 的 问题 是 ， 写 正则 表达 式 时 ， 我 们 需要 在 对 欲 检索 文本 
的 了 解 程度 与 检索 精确 性 之 间 求 得 平衡 。 例 如 ， 如 果 我 们 知道 ， 针 对 某 个 检索 文本 ， 
'03 .19.76) 这 个 正则 表达 式 基本 不 可 能 匹配 不 期 望 的 结果 ， 使 用 它 就 是 合理 的 。 要 想 正确 
使 用 正则 表达 式 ， 清 楚 地 了 解 目标 文本 是 非常 重要 的 。 


注 4: 在 我 四 年 级 的 时 候 ， 曾 经 带 队 参加 拼 字 比赛 (spelling bee) ， 题 目 是 拼写 “miss”。 我 的 答 
案 是 “mirs"s ， 但 史密斯 小 姐 含 闭 地 告诉 我 说 ， 应 该 是 “Mi's"S"， 弟 一 个 字母 要 大 写 ， 
我 应 该 找 老师 要 一 个 例句 ， 于 是 我 出 局 了 。 作 为 一 个 小 孩子 ， 那 时 候 我 感觉 非常 受伤 。 从 
此 以 后 ， 我 开始 讨厌 史密斯 小 姐 ， 拼 写 也 学 得 非常 粳 械 。 


if 


www.TopSage.com 


Egrep 元 字符 13 





多 选 结 构 


Alternation 


匹配 任意 子 表达 式 


山 是 一 个 非常 简捷 的 元 字符 ， 它 的 意思 是 “或 ”(or)。 依 靠 它 ， 我 们 能 够 把 不 同 的 子 表达 
式 组 合成 一 个 总 的 表达 式 ， 而 这 个 总 的 表达 式 又 能 够 匹配 任意 的 子 表达 式 。 假 如 'aob, 和 
Robert! 是 两 个 表达 式 ， 但 Bob1Robert 就 是 能 够 同时 匹配 其 中 任意 一 个 的 正则 表达 式 。 
在 这 样 的 组 合 中 ， 子 表达 式 称 为 “多 选 分 支 (alternative)”。 


回头 来 看 'gr [ealy 的 例子 有 意思 的 是 , 它 还 可 以 写作 'grey 1gray, 或 者 是 'gr (ale)yj。 
后 者 用 括号 来 划 定 多 选 结构 的 范围 (正常 情况 下 ， 括 号 也 是 元 字符 )。 请 注意 , 'gr [alely， 
不 符合 我 们 的 要 求 一 一 在 这 里 ，“ 1” 只 是 一 个 和 'a 与 '@, 一 样 的 普通 字符 。 


对 表达 式 gr (aloy Kik, 括号 是 必须 的 , 因为 如 果 没 有 括号 , rgraley, 的 意思 就 成 了 “gral 
或 者 ey”, 而 这 不 符合 我 们 的 要 求 。 多 选 结构 可 以 包括 很 多 字符 , 但 不 能 超越 括号 的 界限 。 
另 一 个 例子 是 '(First|lst):[sSs]jtreet, ( 注 5), Bb, AX Firsts Fist, FBLA ‘sty 
结尾 , 我 们 可 以 把 这 个 结合 体 缩 略 表示 为 "(Fir1l)st*[ss]jtreeti。 这 样 可 能 不 容易 看 得 清 
楚 ， 但 我 们 知道 (First1lst)) 与 (firll)st 表 示 的 是 同一 个 意思 。 


下 面 是 一 些 用 多 选 结构 来 拼写 我 名 字 的 例子 。 这 3 个 表达 式 是 一 样 的 ， 请 仔细 比较 : 


‘Jeffrey |Jeffery, 
‘Jeff (reylery); 
Jeff (reler)y; 


英国 拼写 法 如 下 : 


(Geoff {Jeff) (reylery) 
‘(GeolJe)ff (rey lery)j 
‘(Geol Je) ff (reler)y; 


最 后 要 注意 的 是 ， 这 3 个 表达 式 其 实 与 下 面 这 个 更 长 〈 但 是 更 简单 ) 的 表达 式 是 等 价 的 ， 
‘Jeffrey|Geoffery|1Jeffery|Geoffrey;。 它 们 只 是 “殊途同归 ”而 已 。 


gr[ealy! 与 gr tale)y! 的 例子 可 能 会 让 人 觉得 多 选 结构 与 字符 组 没 太 大 的 区 别 , 但 是 请 留 
神 不 要 混 靖 这 两 个 概念 。 一 个 字符 组 只 能 匹配 目标 文本 中 的 单个 字符 ， 而 每 个 多 选 结构 自 
身 都 可 能 是 完整 的 正则 表达 式 ， 都 可 以 匹配 任意 长 度 的 文本 。 


注 5: 请 参考 第 VI 页 的 体例 说 明 ， 这 里 的 “'” 表 示 空 格 ， 这 样 更 容易 识别 。 
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字符 组 基本 可 以 算是 一 门 独立 的 微型 语言 (例如 ， 对 于 元 字符 ， 它 们 有 自己 的 规定 ) ， 而 多 
选 结构 是 “正则 表达 式 语言 主体 (main regular expression language)” 的 一 部 分 。 你 将 会 发 
现 ， 这 两 者 都 非常 有 用 。 


同样 ， 在 一 个 包含 多 选 结构 的 表达 式 中 使 用 脱 字符 和 美元 符 的 时 候 也 要 小 心 。 比 较 
'aFrom|Subject |Date: #il'*(From|Subject IDate): RERA, 虽然 它们 看 起 来 与 之 前 
的 E-mail 的 例子 很 相似 ， 匹 配 结果 (〈 即 它们 的 用 处 ) 却 大 不 相同 。 第 一 个 表达 式 由 3 个 多 
选 分 支 构成 , 所 以 它 能 匹配 “From MH ‘subjects RF 'Date:+, 实用 性 不 大 。 我 们 希望 在 
每 一 个 多 选 分 支 之 前 都 有 脱 字符 ， 之 后 都 有 ':.。 所 以 应 该 使 用 括号 来 “限制 ” (constrain ) 
这 些 多 选 分 支 ， 


fa (Froml Subject |Date) :* 


现在 3 个 多 选 分 支 都 受 括号 的 限制 ， 所 以 ， 这 个 正则 表达 式 的 意思 是 : 匹配 一 行 的 起 始 位 
置 ， 然 后 匹配 “Fromj、subject) 或 pacei 中 的 任意 一 个 ， 然 后 匹配 :…， 所 以 ， 它 能 够 匹 
配 的 文本 是 : 


1) 行 起 始 ， 然后 是 F*r*om, 然后 是 rae 
或 者 2) 行 起 始 ， 然 后 是 s*u*b*j*e*c*t ， 然 后 是 “:*…， 
或 者 3) Ék, MEE Date, BEE 


简单 点 说 , WELA ‘From:*', ‘Subject: 或 者 ‘Date: 开头 的 文本 行 , 在 提取 E-mail 
文件 中 的 信息 时 这 很 有 用 。 


下 面 是 一 个 例子 : 


% egrep ‘'*(From|Subject|Date): ' mailbox 
From: elvis@tabloid.org (The King) 
Subject: be seein' ya around 

Date: Mon, 23 Oct 2006 11:04:13 

From: The Prez <president@whitehouse.gov> 
Date: Wed, 25 Oct 2006 8:36:24 

Subject: now, about your vote... 


忽略 大 小 写 


Ignoring Differences in Capitalization 


E-mail header 的 例子 很 适合 用 来 说 明 不 区 分 大 小 写 (case-insensitive) 的 匹配 的 概念 。 E-mail 
header 中 的 字段 类 型 (field type) 通常 是 以 大 写字 母 开 头 的 ， 例 如 “Subject 和 “From ， 
但 是 E-mail 标准 并 没有 对 大 小 写 进行 严格 的 规定 ， 所 以 “DATE ”或 者 “from ”也 是 合法 的 
字段 类 型 。 但 是 ， 之 前 使 用 的 正则 表达 式 无 法 处 理 这 种 情况 。 


一 种 办 法 是 用 “[Ff] (Rr) [oo] [Mm] ,取代 'From, 这 样 就 能 匹配 任何 形式 的 “from”, 但 缺点 
之 一 就 是 很 不 方便 。 幸 好 ， 我 们 有 一 种 办 法 告诉 egrep 在 比较 时 忽略 大 小 写 ,， 也 就 是 进行 不 
区 分 大 小 写 的 匹配 ， 这 样 就 能 忽略 大 小 写字 母 的 差异 。 


if 
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该 功能 并 不 是 正则 表达 式 语言 的 一 部 分 ， 却 是 许多 工具 软件 提供 的 有 用 的 相关 特性 。egrep 
的 命令 行 参数 “-i” 表 示 进 行 忽略 大 小 写 的 匹配 。 把 -i 写 在 正则 表达 式 之 前 : 


% egrep -i '^(From!Subject|Date): ' mailbox 


结果 除了 包括 之 前 的 内 容 外 ， 还 包含 这 一 行 : 


SUBJECT: MAKE MONEY FAST 


我 使 用 -i 参数 的 频率 很 高 (也许 与 第 12 页 的 注解 有 关 ) ， 所 以 我 推荐 读者 记 住 它 。 在 下 面 
的 章节 中 我 们 还 会 见 到 其 他 的 简捷 特性 。 


单词 分 界 符 


Word Boundaries 


使 用 正则 表达 式 时 经 常会 遇 到 的 一 个 问题 ， 期 望 匹 配 的 “单词 ”包含 在 另 一 个 单词 之 中 。 
在 cat, gray 和 smith 的 例子 中 ， 我 曾 提 到 过 这 个 问题 。 不 过 ， 某 些 版 本 的 egrep 对 单词 
识别 提供 了 有 限 的 支持 : 也 就 是 单词 分 界 符 (单词 开头 和 结束 的 位 置 ) 的 匹配 。 


如 果 你 的 egrep 支持 “元 字符 序列 (metasequences)” < 和 仆 >,， 就 可 以 使 用 它们 来 匹配 
单词 分 界 的 位 置 。 可 以 把 它们 想象 为 单词 版 本 的 和 S, 分别 用 来 匹配 单词 的 开头 和 结束 
位 置 。 就 像 作为 行销 点 的 赔 字符 和 美元 符 一 样 ， 它 们 锁定 了 正则 表达 式 的 其 他 部 分 ， 但 在 
匹配 过 程 中 并 不 对 应 到 任何 字符 。 表 达 式 八 <cat\>, 的 意思 是 “匹配 单词 的 开头 位 置 ， 然后 
是 cra't 这 3 个 字母 ， 然 后 是 单词 的 结束 位 置 *。 更 直接 点 说 就 是 “匹配 cat 这 个 单词 "。 如 
果 读 者 原意 ， 也 可 以 用 <cat!, 和 'cat\>j 来 匹配 以 cat 开头 和 结束 的 单词 。 


请 注意 ，<, 和 > 本 身 并 不 是 元 字符 一 一 只 有 当 它 们 与 斜 线 结合 起 来 的 时 候 ， 整 个 序列 才 具 
有 特殊 意义 。 这 就 是 我 称 其 为 “元 字符 序列 ”的 原因 。 重 要 的 是 它们 的 特殊 意义 ， 而 不 是 
字符 的 个 数 ， 所 以 我 说 的 “元 字符 ”和 “元 (字符 ) 序列 ”大 多 数 时 候 是 等 价 的 。 


请 记 住 ， 并 不 是 所 有 版 本 的 egrep 都 支持 单词 分 界 符 ， 即 使 是 支持 的 版 本 也 不 见得 聪明 到 
能 “认得 出 ”英语 单词 。“ 单 词 的 起 始 位 置 ”只 不 过 是 一 系列 字母 和 数字 符号 (alphanumeric 
characters) 开始 的 位 置 ， 而 “结束 位 置 ”就 是 它们 结尾 的 地 方 。 下 一 页 的 图 1-2 说 明了 一 行 
简单 文本 中 的 单词 分 界 符 。 


(egrep 认定 的 ) 单词 开头 位 置 用 向 上 的 箭头 标识 ， 单 词 结束 位 置 用 向 下 的 箭头 标识 。 我 们 
看 到 ,“ 单 词 的 开始 和 结束 ”准确 地 说 是 “字母 数字 符号 的 开始 和 结束 "， 不 过 这 样 说 太 麻 
HT. 
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— ee PD I P 


That gang- tootin’ #2 1%* Yarmint’s post pe $199.95: 


* \< 能 够 匹配 的 位 置 | `\> 能 够 匹配 的 位 轩 单词 





图 1-2:“ 单 词 ”的 起 始 和 结束 位 置 
小 结 


Ina Nutshell 
表 1-1 总 结 了 我 们 已 经 介绍 过 的 元 字符 。 


表 1-1: 至 今 为 止 所 见 的 元 字符 小 结 


heal 






点 号 单个 任意 字符 
要 字符 组 列 出 的 任意 字符 
排除 型 字符 组 未 列 出 的 任意 字符 


行 的 起 始 位 置 












$ 美元 符 行 的 结束 位 置 

\< KA A-D F 单词 的 起 始 位 置 ( 某 些 版 本 的 egrep 可 能 不 支持 ) 

\> A R-KF 单词 的 结束 位 置 ( 某 些 版 本 的 egrep 可 能 不 支持 ) 

| EA VE He 5p fh HD EERE 

(+++) 括号 限制 坚 线 的 作用 范围 ， 其 他 功能 下 文 讨 论 
另外 还 有 几 点 需要 注意 : 


。 ”在 字符 组 内 部 ， 元 字符 的 定义 规则 (及 它们 的 意义 ) 是 不 一 样 的 。 例 如 ， 在 字符 组 外 
部 ， 点 号 是 元 字符 ， 但 是 在 内 部 则 不 是 如 此 。 相 反 ， 连 字符 只 有 在 字符 组 内 部 (这 是 
普遍 情况 ) 才 是 元 字符 ， 否 则 就 不 是 。 脱 字符 在 字符 组 外 部 表示 一 个 意思 ， 在 字符 组 
内 部 紧 接 着 [ 时 表示 另 一 个 意思 ， 其 他 情况 下 又 表示 别 的 意思 。 


。 ”不 要 混 请 多 选项 和 字符 组 。 字 符 组 '[abc], 和 多 选项 '(alblc), 固然 表示 同一 个 意思 ， 
但 是 这 个 例子 中 的 相似 性 并 不 能 推广 开 来 。 无 论 列 出 的 字符 有 多 少 ， 字 符 组 只 能 匹配 
一 个 字符 。 相 反 ， 多 选项 可 以 匹配 任意 长 度 的 文本 ， 每 个 多 选项 可 能 匹配 的 文本 都 是 
独立 的 , 例如 人 <(1,000,000Imillion1lthousand*thou)\>ij。 不 过 ， 多 选项 设 有 像 字 
符 组 那样 的 排除 功能 。 
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"。 ”排除 型 字符 组 是 表示 所 有 未 列 出 字符 的 字符 组 的 简便 方法 。 因 此 ，[^x], 的 意思 并 不 
是 “只 有 当 这 个 位 置 不 是 x 时 才能 匹配 ”， 而 是 说 “匹配 一 个 不 等 于 x 的 字符 "。 其 中 
的 差别 很 细微 ， 但 很 重要 。 例 如 ， 前 面 的 概念 可 以 匹配 一 个 空 行 ， 而 【^x], 则 不 行 。 


。 -i 参数 规定 在 匹配 时 不 区 分 大 小 写 (715) ( 注 6)。 


。 目前 介绍 过 的 知识 都 很 有 用 ， 但 “可 选项 (optional)” 和 “计数 (counting )” 元 素 更 
重要 ， 下 文 将 马上 介绍 。 


可 选项 元 素 
Optional Items 
现在 来 看 color 和 colour 的 匹配 。 它 们 的 区 别 在 于 ， 后 面 的 单词 比 前 面 的 多 一 个 u， 我 们 


可 以 用 colou?ri 来 解决 这 个 问题 。 元 字符 “? ，( 也 就 是 问号 ) 代表 可 选项 。 把 它 加 在 一 个 
字符 的 后 面 ， 就 表示 此 处 容许 出 现 这 个 字符 ， 不 过 它 的 出 现 并 非 匹 配 成 功 的 必要 条 件 。 


u?1 这 个 元 字符 与 我 们 之 前 看 到 的 元 字符 都 不 相同 ， 它 只 作用 于 之 前 紧邻 的 元 素 。 因 此 ， 
'colou?r! 的 意思 是 ; "rcj， 然 后 是 "oj， 然 后 是 L, Rano, Rau, Aai 


u2 是 必然 能 够 匹配 成 功 的, 有 时 它 会 匹配 一 个 u, 其 他 时 候 则 不 匹配 任何 字符 。 关键 在 于 ， 
ER u 是 否 出 现 ， 匹 配 都 是 成 功 的 。 但 这 并 不 等 于 ， 任 何 包含 ? 的 正则 表达 式 都 永远 能 匹 
配 成 功 。 例 如 ,rcolo 和 ?都 能 在 “semicolion” 中 匹配 成 功 (前 者 匹配 单词 中 的 colo, 
后 者 什么 字符 都 没有 匹配 ) 。 可 是 最 后 的 z, 无 法 匹配 ， 因 此 ， 最 终 'colou?r 无 法 匹配 


Semicolon。 


来 看 另 一 个 例子 , 我 们 需要 匹配 表示 7 月 4 日 (July fourth) 的 文本 , 其 中 月 份 可 能 写作 July 
或 是 Jul， 而 日 期 可 能 写作 fourth, 4th 或 者 是 4。 显 然 ， 我 们 可 以 使 用 '(oulyloul)， 
(fourthl4th14)1;， 但 也 可 以 找 些 其 他 的 办 法 来 解决 这 个 问题 。 


首先 ， 我 们 把 “(July1Ju1) ,缩短 为 ‘(July?),;。 你 明白 这 种 等 价 变 换 吗 ?删除 1, 之后， 就 
没 必 要 保留 括号 了 。 当 然 保留 也 可 以 ， 但 不 保留 括号 显得 更 整洁 一 些 。 于 是 我 们 得 到 


‘July? (fourth|4th!4)5, 


26: 按照 第 V 页 的 体例 说 明 ， 字 15 代表 参照 本 书 第 15 页 的 内 容 。 
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现在 来 看 第 二 部 分 , 我 们 可 以 把 "4ch14; 简 化 为 “4(ch) ?。 我 们 看 到 , 现在 '?, 作 用 的 元 素 是 
整个 括号 了 。 括 号 内 的 表达 式 可 以 任意 复杂 , 但 是 “从 括号 外 来 看 ”它们 是 个 整体 。 界定 ?， 
的 作用 对 象 (还 可 以 划 定 我 即将 介绍 的 其 他 类 似 元 字符 的 作用 对 象 ) 是 括号 的 主要 用 途 之 


— 


我 们 的 表达 式 现在 成 了 uly?'(fourth14(th) ?)i。 尽 管 它 包 含 了 许多 元 字符 , MAAKE 
的 括号 ， 但 理解 起 来 并 不 困难 。 我 们 花 了 相当 的 工夫 来 讲解 这 两 个 简单 的 例子 ， 但 同时 也 
接触 到 了 一 些 相关 的 知识 ,它们 相当 有 助 于 一 一 或 许 你 现在 还 意识 不 到 一 我 们 理解 正则 表 
AK. AFE, 通过 这 些 讲解 ,我 们 也 积累 了 依靠 不 同 思路 解决 问题 的 经 验 。 在 阅读 本 书 ( 同 
时 也 是 在 加 深 理 解 ) 寻找 复杂 问题 的 最 优 解决 方案 的 过 程 中 ， 你 可 能 会 发 现 灵感 可 能 在 不 
断 涌现 。 正 则 表达 式 不 是 死板 的 教条 ，、 它 更 像 是 门 艺 术 。 





其 他 量词 : 重复 出 现 


Other Quantifiers: Repetition 


a (加 号 ) Aa (BS) 的 作用 与 问号 类 似 。 元 字符 + 表示 “之 前 紧邻 的 元 素 出 现 一 次 或 
多 次 ”， 而 *, 表 示 “ 之 前 紧邻 的 元 素 出 现任 意 多 次 ， 或 者 不 出 现 ”"。 换 种 说 法 就 是 ，…*, 表 
示 “ 匹 配 尽 可 能 多 的 次 数 ， 如 果实 在 无 法 匹配 ， 也 不 要 紧 ”。"…+ 的 意思 与 之 类 似 ， 也 是 匹 
配 尽 可 能 多 的 次 数 ， 但 如 果 连 一 次 匹配 都 无 法 完成 ， 就 报告 失败 。 问 号 、 加 号 和 星 号 这 3 
个 元 字符 ， 统 称 为 量词 (quantifiers) ， 因 为 它们 限定 了 所 作用 元 素 的 匹配 次 数 。 


与 …?, 一 样 , 正则 表达 式 中 的 … 思 也 是 永远 不 会 匹配 失败 的 , 区别 只 在 于 它们 的 匹配 结果 。 
而 …++ 在 无 法 进行 任何 一 次 匹配 时 ， 会 报告 匹配 失败 。 


举例 来 说 ,…? 能 够 匹配 一 个 可 能 出 现 的 空格 ， 但 是 “能够 匹配 任意 多 个 空格 。 我 们 可 以 
用 这 些 量词 来 简化 第 9 页 <H[1-6]> 的 例子 。 按 照 HTML 规范 ( 注 7)， 在 tag 结尾 的 > 字符 
之 前 ， 可 以 出 现任 意 长 度 的 空格 ， 例 如 <H3'> 或 者 <H4…>。 把 “…* 加 入 正则 表达 式 中 的 可 能 
出 现 (但 不 是 必须 ) 空格 的 位 置 ， 就 得 到 'H{1-6]**。 它 仍然 能 够 匹配 <H1>， 因 为 空格 并 不 
是 必须 出 现 的 ， 但 其 他 形式 的 tag 也 能 匹配 。 


注 7: FPRKARA HTML 规范 也 不 必 担 心 。 我 把 它们 当 作 实 际 的 例子 ,但 是 我 会 提供 理解 其 中 
的 意义 所 需 的 甸 节 。 BA HTML tag 解析 的 人 可 能 会 认识 到 我 未 在 本 书 中 提 及 的 重要 意义 。 
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接 下 来 看 类 似 <HR*SIZE=14> 这 样 的 HTML tag， 它 表示 一 条 高 度 为 14 像素 的 穿越 屏幕 的 水 
平 线 。 与 <83> 的 例子 一 样 ， 在 最 后 的 尖 括 号 之 前 可 以 出 现任 意 多 个 空格 。 此 外 ， 在 等 号 两 
边 也 容许 出 现任 意 多 个 空格 。 最 后 ， 在 HR 和 size 之 间 必 须 有 至 少 一 个 空格 。 为 了 处 理 更 
多 的 空格 ， 我 们 可 以 在 … 后 添加 “…*,， 不 过 最 好 还 是 改写 为 +。 加 号 确保 至 少 有 一 个 空格 
HR, 所 以 它 与 …*1 是 完全 等 价 的 ， 只 不 过 更 简洁 。 所 以 我 们 得 到 '<HR*+SIZE**="*14.*>1。 


尽管 这 个 表达 式 不 受 空格 数目 的 限制 , 但 它 仍然 受 tag 中 直线 尺寸 大 小 的 约束 。 我 们 要 找 的 
不 仅仅 是 高 度 为 14 的 tag， 而 是 所 有 这 些 tag。 所 以 ， 我 们 必须 用 能 匹配 普通 数值 (general 
number) 的 表达 式 来 替换 14,。 在 这 里 ,，“ 数 值 ”(number) 是 由 一 位 或 多 位 数字 (digits) 
构成 的 。[0-9], 可 以 匹配 一 个 数字 ， 因 为 “至 少 出 现 一 次 "， 所 以 我 们 使 用 加 号 量词 ， 结 果 
就 是 用 (0-9) +, BR 14j。( 一 个 字符 组 是 一 个 “元 素 ”(unit) ， 所 以 它 可 以 直接 加 加 号 、 星 
号 等 ， 而 不 需要 用 括号 。) 


这 样 我 们 就 得 到 了 '<HR*+SIZE**=** [0-9]+**>;， 尽 管 我 用 了 粗 体 标识 元 字符 ， 用 空格 来 分 

Bae ICH, 而 且 使 用 了 “看 得 见 的 空格 符 ”“…，, 这 个 表达 式 仍然 不 容易 看 懂 (幸好 ,egrep 

提供 了 -i 的 参数 了 15, 这 样 我 就 不 需要 用 '[Hh] [Rr] ERAR HR T), BM, ‘<HR +SIZE *= 
*[0-9]+ *>/ 更 令 人 迷惑 。 这 个 表达 式 之 所 以 看 起 来 有 些 诡异 ， 是 因为 星 号 和 加 号 作用 的 对 

象 大 都 是 空格 ， 而 人 眼 习 惯 于 把 空格 和 普通 字符 区 分 开 来 。 在 阅读 正则 表达 式 时 ， 我 们 必 

须 改变 这 种 习惯 ， 因 为 空格 符 也 是 普通 字符 之 一 ， 它 与 j 或 者 4 这 样 的 字符 没有 任何 差别 
(在 后 面 的 章节 中 ， 我 们 会 看 到 ， 某 些 工 具 软 件 支持 忽略 空格 的 特殊 模式 )。 


我 们 继续 这 个 例子 ， 如 果 尺 寸 这 个 属性 也 是 可 选 的 ， 也 就 是 说 <HR> 就 代表 默认 高 度 的 直 
线 (同样 ,在 > 之 前 也 可 能 出 现 空格 ) 。 你 能 修改 我 们 的 正则 表达 式 ， 让 它 匹 配 这 两 种 类 型 
的 tag 吗 ? 解决 问题 的 关键 在 于 明白 表示 尺寸 的 文本 是 可 选 出 现 的 (这 是 个 暗示 )。 信 请 翻 
到 下 一 页 查看 答案 。 


请 仔细 观察 最 后 (答案 中 ) 的 表达 式 ， 体 会 问号 、 星 号 和 加 号 之 间 的 差异 ， 以 及 它们 在 实 
际 应 用 中 的 真正 作用 。 下 一 页 的 表 1-2 总 结 了 它们 的 意义 。 


请 注意 ， 每 个 量词 都 规定 了 匹配 成 功 至 少 需要 的 次 数 下 限 ， 以 及 尝试 匹配 的 次 数 上 限 。 对 
某 些 量词 来 说 ， 下 限 是 0， 对 某 些 量词 来 说 ， 上 限 是 无 穷 大 。 
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把 一 个 子 表 达 式 变 为 可 选项 


+ 19 页 问题 的 答案 

在 本 例 中 ,“ 可 选 出 现 ”(optional) 的 意思 是 可 以 但 并 不 必须 匹配 一 次 。 这 需要 使 用 ? |。 
因为 可 选项 多 于 一 个 字符 ， 所 以 我 们 必须 使 用 括号 : O)? CMAARBKAP, HR 
得 到 '<HR (++SIZE**="* [0-9] +) 2"*>| 

请 注意 , 结尾 的 "xj 在 (…)31 以 外 。 这 样 就 能 应 付 '<HR.>! 之 类 的 情况 。 如 果 我 们 把 它 
包含 在 括号 内 ， 则 只 有 在 出 现 “SIZE=…” 这 段 文本 的 情况 下 才 容 许 在 > 之 前 出 现 空格 。 
同样 请 注意 SIZE 之 前 的 "+) 包含 在 括号 内 。 如 果 把 它 拿 到 括号 之 外 , HR 之 后 就 必须 紧 
跟 至 少 一 个 空格 ， 即 使 SIZE 没有 出 现 也 是 如 此 。 这 样 “<HR>” 就 无 法 匹配 了 。 





表 1-2:“ 表 示 重 复 的 元 字符 ”含义 小 结 


? —— TAREA, ET ARERR (PETE) 
* [et | 无 | 可 以 出 现 无 数 次 ， 也 可 以 不 出 现 (任意 次 数 均 可 ) 
+ |i — |æ | 可 以 出 现 无 数 次 ,但 至 少 要 出 现 一 次 ( 重 少 一 次 ) 


规定 重 现 次 数 的 范围 ， 区 间 





某 些 版 本 的 egrep 能 够 使 用 元 字符 序列 来 自 定 义 重 现 次 数 的 区 间 :…{min, max}. PRE 
间 量 词 (interval quantifier)”, (ian, …{3,12), 能 够 容许 的 重 现 次 数 在 3 到 12 之 间 。 有 人 
可 能 会 用 '[a-zA-z] {1,5}, 来 匹配 美国 的 股票 代码 (1 到 5 个 字母 ) 。 问 号 对 应 的 区 间 量 词 
是 {0,1}。 


支持 区 间 表 示 法 的 egrep 的 版 本 并 不 多 , 但 有 许多 另外 的 工具 支持 它 。 在 第 3 章 我 们 会 仔细 
考察 目前 经 常 使 用 的 元 字符 ， 那 时 候 会 涉及 区 间 的 支持 问题 。 


括号 及 反问 引用 


Parentheses and Backreferences 


到 目前 为 止 ， 我 们 已 经 见 过 括号 的 两 种 用 途 : 限制 多 选项 的 范围 ， 将 若干 字符 组 合 为 一 个 
单元 , 受 问 号 或 星 号 之 类 量词 的 作用 。 现 在 我 要 介绍 括号 的 另 一 种 用 途 ， 虽然 它 在 egrep 中 
并 不 常见 (不 过 流行 的 GNU 版 本 确实 支持 这 一 功能 )， 但 在 其 他 工具 软件 中 很 常见 。 


www.TopSage.com 


Egrep 元 字符 21 


在 许多 流派 (flavor) 的 正则 表达 式 中 ,括号 能 够 “ 记 住 ”它们 包含 的 子 表达 式 匹 配 的 文本 。 
在 解决 本 章 开始 提 到 的 单词 重复 问题 时 就 会 用 到 这 个 功能 。 如 果 我 们 确切 知道 重复 单词 的 
第 一 个 单词 (比方 说 这 个 单词 就 是 “the") ， 就 能 够 明确 无 误 地 找到 它 ， 例 如 che'chei。 这 
样 或 许 还 是 会 匹配 到 the-theory 的 情况 ,但 如 果 我 们 的 egrep 支持 在 第 15 页 提 到 的 单词 分 
REF \<che-the\>:, 这 个 问题 就 很 容易 解决 。 我 们 可 以 添加 +: 把 这 个 表达 式 变 得 更 灵 话 。 


然而 ， 穷 举 所 有 可 能 出 现 的 重复 单词 显然 是 不 可 能 完成 的 任务 。 如 果 我 们 先 匹配 任意 一 个 
单词 ， 接 下 来 检查 “后 面 的 单词 是 否 与 它 一 样 "， 就 好 办 多 了 。 如 果 你 的 egrep 支持 “ 反 向 
引用 (backreference)”， 就 可 以 这 么 做 。 反 向 引用 是 正则 表达 式 的 特性 之 一 ， 它 容许 我 们 匹 
配 与 表达 式 先前 部 分 匹配 的 同样 的 文本 。 


我 们 先 把 '\<the*+the\>, 中 的 第 一 个 'thej 替换 为 能 够 匹配 任意 单词 的 正则 表达 式 
‘(A-Za-z)+) 然后 在 两 端 加 上 括号 (原因 见 下 段 )， 最 后 把 后 一 个 “the” 震 换 为 特殊 的 元 
字符 序列 \1/， 就 得 到 了 "\<([A-2Za-z]+)*+\1\>1。 


在 支持 反 向 引用 的 工具 软件 中 ， 括 号 能 够 “记忆 ”其 中 的 子 表达 式 匹配 的 文本 ， 不 论 这 些 
文本 是 什么 ， 元 字符 序列 1 都 能 记 住 它们 。 


当然 ， 在 一 个 表达 式 中 我 们 可 以 使 用 多 个 括号 。 再 用 疏 1,. 人 2,、 仆 3, 等 来 表示 第 一、 第 二 、 
第 三 组 括号 匹配 的 文本 。 括 号 是 按照 开 括 号 “(” 从 左 至 右 的 出 现 顺 序 进行 的 ， 所 以 
(fa-z])([0-9])N1\2 中 的 人 1 代表 “0a-z] 匹 配 的 内 容 , 而 仆 2, 代 表 ' [0-9] 匹 配 的 内 容 。 


在 “the*the' 的 例子 中 ，[aA-2a-z]+1 匹 配 第 一 个 “the'。 因 为 这 个 子 表达 式 在 括号 中 , 所 
以 1; 代表 的 文本 就 是 “the’ 。 如 果 “+ 能够 匹配 ， 后 面 的 人 1 要 匹配 的 文本 就 是 “che '。 
如 果 '\ 1 也 能 成 功 匹配 , 最 后 的 八 >, 对 应 单词 的 结尾 (如 果 文 本 是 “the'theft', 这 一 条 就 
不 满足 )。 如 果 整 个 表达 式 能 匹配 成 功 ， 我 们 就 得 到 一 个 重复 单词 。 有 的 重复 单词 并 不 是 错 
误 ， 例 如 “that that’ (译注 3)， 这 并 不 是 正则 表达 式 的 错误 ， 真 正 的 判断 还 得 靠 人 。 


我 决定 使 用 上 面 这 个 例子 的 时 候 ， 已 经 用 这 个 表达 式 检查 过 本 书 之 前 的 内 容 了 (我 使 用 的 
是 支持 <…\>! 和 反 向 引用 的 egrep)。 我 还 使 用 了 第 15 页 提 到 的 忽略 大 小 写 的 参数 -i 来 拓 
宽 它 的 适用 范围 ( 注 8)， 所 以 “The*the” 这 样 的 单词 重复 也 能 提取 出 来 。 


译注 3: 在 英文 中 有 可 能 出 现 两 个 连续 的 that, 例如 And we think that that standard has been met 
here。 其 中 第 一 个 that 表示 宾语 从 名 的 引导 词 ， 第 二 个 用 于 修饰 standards, 


£8: 某 些 版 本 的 egrep， 包 括 一 些 流行 的 GNU 版 本 的 egrep 在 内 ， 它 们 的 -i 参数 都 存在 一 个 
bug， 即 不 会 对 反 向 引用 的 内 容 忽 略 大 小 写 ， 也 就 是 说 ， 它 可 以 找到 “the the”， 但 找 不 到 
“The the”, 
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我 使 用 的 命令 如 下 : 
% egrep -i '\<([a-z}]+) +#\1\>' files... 


结果 令 我 惊奇 ， 居 然 找 到 了 14 组 重复 单词 。 我 把 它们 全 都 改正 了 ， 而 且 把 这 个 表达 式 添 加 
到 我 用 来 检查 本 书 拼写 错误 的 工具 中 ， 保 证 从 此 以 后 全 书 中 不 会 出 现 这 样 的 错误 。 


尽管 这 个 表达 式 很 有 用 ,我 们 仍然 需要 重视 它 的 局 限 。 因 为 egrep 把 每 行文 字 都 当 作 - -个 独 
立 部 分 米 看 待 ， 所 以 如 果 单 词 重复 的 第 一 个 单词 在 某 行 末尾 ， 第 二 个 单词 在 下 一 行 的 开头 ， 
这 个 表达 式 就 无 法 找到 。 所 以 ， 我 们 需要 更 加 灵活 的 工具 ， 下 一 章 我 们 会 看 到 这 方面 的 例 
子 。 


神奇 的 转 义 


Fhe Creat f sape 


有 个 重要 的 问题 我 尚未 提 及 ， 即 ， 如 果 需 要 匹配 的 某 个 字符 本 身 就 是 元 字符 ， 正 则 表达 式 
会 如 何 处 理 呢 ? 例如 , 如 果 我 想 要 检索 互联 网 的 主机 名 ega.att .com, 使 用 ‘ega.att .com 
可 能 得 到 megawatt*com puting 的 结果 。 还 记得 吗 ?“. | 本身 就 是 元 字符 , 它 可 以 匹配 任何 
字符 ， 包 括 空格 。 


真正 匹配 文本 中 点 号 的 元 序列 应 该 是 反 斜 线 (backslash) 加 上 点 号 的 组 合 ; ega\ .att\ .com 
4 称 为 “ 转 义 的 点 号 ”或 者 “ 转 义 的 名 号 "， 这 样 的 办 法 适用 于 所 有 的 元 字符 ,不 过 在 字 
符 组 内 部 无 效 ( 注 9)。 


这 样 使 用 的 反 斜 线 称 为 “ 转 义 符 《escape) ”一 一 它 作 用 的 元 字符 会 失去 特殊 含义 ， 成 了 普 
通 字符 。 如 果 你 愿意 ， 也 可 以 把 转 义 符 和 它 之 后 的 元 字符 看 作 特 殊 的 元 字符 序列 ， 这 个 元 
字符 序列 匹配 的 是 元 字符 对 应 的 普通 字符 。 这 两 种 看 法 是 等 价 的 。 


我 们 还 可 以 用 \( [a-zA-Zz]+\) 1 来 匹配 一 个 括号 内 的 单词 , 例如 “(very) '。 在 开 闭 括 号 之 
前 的 反 斜 线 消除 了 开 闭 括号 的 特殊 意义 ， 于 是 他 们 能 够 匹配 文本 中 的 开 闭 括 号 。 





如 果 反 斜 线 后 紧 跟 的 不 是 元 字符 ， 反 斜 线 的 意义 就 依 程 序 的 版 本 而 定 。 例 如 ， 我 们 已 经 知 
道 ， 某 些 版 本 的 程序 把 <!、\>;、\11 当 作 元 字符 序列 对 待 。 在 后 面 的 章节 中 我 们 会 看 到 更 
多 的 例子 。 


注 9: 大 多 数 程序 设计 语言 和 工具 都 支持 字符 组 内 部 的 转 义 ， 但 是 大 多 数 版 本 的 egrep 不 支持 ， 
它们 会 把 反 针线 “\” 当 作 字符 组 内 部 列 出 的 普通 字符 。 
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基础 知识 拓展 


Expanding the Foundatioii 


我 希望 ， 前 面 的 例子 和 解释 已 经 帮助 读者 牢固 地 打下 了 正则 表达 式 的 基础 ， 也 请 读者 明白 ， 
这 些 例子 都 很 浅显 ， 我 们 需要 掌握 的 还 有 很 多 。 


语言 的 差异 


Linguishe Diversification 


我 已 经 介绍 过 大 多 数 版 本 的 egrep 支持 的 正则 表达 式 的 特性 ,这样 的 特性 还 有 很 多 , 其 中 一 
些 并 不 是 所 有 的 版 本 都 支持 ， 这 个 问题 留 到 后 面 的 章节 讲解 。 


任何 语言 中 都 存在 不 同 的 方言 和 口音 ， 很 不 幸 ， 正 则 表达 式 也 一 样 。 情 况 似 乎 是 ， 每 一 种 
支持 正则 表达 式 的 语言 都 提供 了 自己 的 “改进 "。 正 则 表达 式 不 断 发 展 ， 但 多 年 的 变化 也 造 
就 了 数目 众多 的 正则 表达 式 “ 流 派 ”(flavor)。 我 们 会 在 下 面 的 章节 中 见 到 各 种 例子 。 


正则 表达 式 的 目标 


The Goal of a Regular Expression 


从 最 宏观 的 角度 看 , 一 个 正则 表达 式 要 么 能 够 匹配 给 定 文本 (对 egrep 来 说 , 就 是 一 行文 本 ) 
中 的 某 些 字 符 ， 要 么 不 能 匹配 。 在 编写 正则 表达 式 的 时 候 ， 我 们 必须 进行 权衡 : 匹配 符合 
要 求 的 文本 ， 同 时 忽略 不 符合 要 求 的 文本 。 


尽管 egrep 不 关心 匹配 文本 在 行 中 的 位 置 , 但 对 正则 表达 式 的 其 他 应 用 来 说 , 这 个 问题 却 很 
重要 。 如 果 文 本 是 这 样 : 


„zip is 44272. If you write, send $4.95 to cover postage and... 


我 们 只 希望 找 出 包含 【0-91+) 的 那些 行 ， 就 不 需要 关心 真正 匹配 的 数字 。 相 反 ， 如 果 我 们 
需要 操作 这 些 数 字 (例如 保存 到 文件 、 添 加 、 替 换 之 类 一 一 我 们 会 在 下 一 章 看 到 这 样 的 处 
理 ) ， 就 需要 关心 确切 匹配 的 那些 数字 。 


更 多 的 例子 


A Few More Examples 


在 任何 语言 中 ， 经 验 都 是 非常 重要 的 ， 所 以 我 会 给 出 更 多 用 正则 表达 式 匹 配 党 用 文本 结构 
的 例子 。 


编写 正则 表达 式 时 ， 按 照 预期 获得 成 功 的 匹配 要 花 去 一 半 的 工夫 ， 另 一 半 的 工夫 用 来 考 
虑 如 何 忽 略 那些 不 符合 要 求 的 文本 。 在 实践 中 ， 这 两 方面 都 非常 重要 ， 但 是 目前 我 们 只 关 
注 “ 获 得 成 功 匹 配 ”的 方面 。 即 使 我 没有 对 这 些 例 子 进行 最 全 面 彻 底 的 解释 ， 它 们 仍然 能 
够 提供 有 用 的 启示 。 


i 
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变量 名 


许多 程序 设计 语言 都 有 标识 符 (identifier， 例 如 变量 名 ) 的 概念 ， 标 识 符 只 包含 字母 、 数 字 
以 及 下 画 线 ， 但 不 能 以 数字 开头 。 我 们 可 以 用 (a-za-2_] [a-za-2Z_0-9] 思 来 匹配 标识 符 。 
第 一 个 字符 组 匹配 可 能 出 现 的 第 一 个 字符 ， 第 二 个 (包括 对 应 的 “*,) 匹配 余下 的 字符 。 如 
果 标 识 符 的 长 度 有 限制 ,例如 最 长 只 能 是 32 个 字符 ,又 能 使 用 第 20 页 介绍 的 区 间 量 词 { min, 
maxrj， 我 们 可 以 用 '!(0,31): 来 替代 最 后 的 "*,。 


引号 内 的 字符 串 


匹配 引号 内 的 字符 串 最 简单 的 办 法 是 使 用 这 个 表达 式 :" [~^"]*"1。 


两 端的 引号 用 来 匹配 字符 串 开头 和 结尾 的 引号 。 在 这 两 个 引号 之 间 的 文本 可 以 包括 双 引 号 
之 外 的 任何 字符 。 所 以 我 们 用 '[^"] ,来 匹配 除 双 引 号 之 外 的 任何 字符 , 用 '*, 来 表示 两 个 引 
号 之 间 可 以 存在 任意 数目 的 非 双 引号 字符 。 


关于 引号 字符 串 ， 更 有 用 (也 更 复杂 ) 的 定义 是 ， 两 端的 双 引 号 之 间 可 以 出 现 由 反 斜 线 转 
义 的 双 引 号 , 例如 "nail*the*2\"x4\"*plank"。 在 后 面 的 章节 讲解 匹配 实际 进行 的 细节 时 ， 
我 们 会 多 次 遇 到 这 个 例子 。 


美元 金额 (可 能 包含 小 数 ) 


\$[0-9]+(\.10-9] [0-9])?, 是 一 种 匹配 美元 金额 的 办 法 。 


从 整体 上 看 ， 这 个 表达 式 很 简单 ， 分 为 三 部 分 : AS euR (…) ?)， 可 以 大 致 理解 为 : 一 
个 美元 符号 ， 然 后 是 一 组 字符 ， 最 后 可 能 还 有 另 一 组 字符 。 这 里 的 “字符 ” 指 的 是 数字 (一 
组 数字 构成 一 个 数值 ),“ 另 一 组 字符 ”是 由 一 个 小 数 点 和 两 位 数字 构成 的 。 


从 几 个 方面 来 看 ， 这 个 表达 式 还 很 简陋 。 比 如 ， 它 只 能 接受 $1000， 而 无 法 接受 $1,000。 
它 确实 能 接受 可 能 出 现 的 小 数 部 分 ， 但 对 于 egrep 来 说 意义 不 大 。 因 为 egrep 从 不 关心 匹配 
文字 的 内 容 ， 而 只 关心 是 否 存在 匹配 。 处 理 可 能 出 现 的 小 数 部 分 对 整个 表达 式 能 否 匹 配 并 
设 有 影响 。 


但 是 ， 如 果 我 们 需要 找到 只 包含 价格 而 不 含 其 他 字符 的 行 ， 倒 是 可 以 在 这 个 表达 式 两 端 加 
E'S. 这 样 一 来 ， 可 选 的 小 数 部 分 就 变 得 很 重要 了 ,因为 在 金额 数值 和 换行 符 之 间 是否 
存在 小 数 部 分 ， 决 定 了 整个 表达 式 的 匹配 结果 是 否 存在 差异 。 
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男 外 ， 这 个 正则 表达 式 还 无 法 匹配 “$ .49'。 你 可 能 认为 把 加 号 换 成 星 号 能 够 解决 问题 ， 不 
过 这 条 路 走 不 通 。 在 这 我 先 卖 个 关子 ， 答 案 留 待 第 5 章 (7194) 揭晓 。 


HTTP/HTML URL 


Web URL 的 形式 可 能 有 很 多 种 , 所 以 构造 一 个 能 够 匹配 所 有 形式 的 URL 的 正则 表达 式 颇 有 
难度 。 不 过 ， 稍 微 降低 一 点 要 求 的 话 ， 我 们 能 够 用 一 个 相当 简单 的 正则 表达 式 来 匹配 大 多 
数 常 见 的 URL。 进 行 这 种 检索 的 原因 之 一 是 ， 我 只 能 大 概 记 得 在 收 到 的 某 封 邮件 中 有 一 个 
URL 地 址 ， 不 过 一 见 到 它 我 就 能 认 出 来 。 


常见 的 HTTP/HTML URL 是 下 面 这 样 的 ， 
http://hostname/path.html 
当然 ，.htm 的 结尾 也 很 常见 。 


hostname (主机 名 , 例如 www.yahoo.com) 的 规则 比较 复杂 , 但 是 我 们 知道 , 跟 在 ‘http://* 
之 后 的 就 有 可 能 是 主机 名 , 所 以 这 个 正则 表达 式 就 很 简单 ，“[-a-z0-9_.]+。path 部 分 的 变 
化 更 多 ， 所 以 我 们 需要 使 用 '[-a-z0-9_:@&?=+,.!/~*%$]*/。 请 注意 ， 连 字符 必须 放 在 字 
符 组 的 开头 ， 保 证 它 是 一 个 普通 字符 ， 而 不 是 用 来 表示 范围 (79), 


综合 起 来 ， 我 们 第 一 次 尝试 的 正则 表达 式 就 是 : 


% egrep -i ‘\<http://[-a-z0-9_.:])+/[-a-z0-9_:@&?=4+, .!/~*$S$]*\. html?\>’ 
files 


因为 我 们 降低 了 对 匹配 的 要 求 ， 所 以 “http://..../foo.html” 也 能 匹配 ， 虽 然 它 显然 不 
是 一 个 合法 的 URL。 我 们 需要 关心 这 一 点 吗 ? 这 取决 于 具体 的 情况 。 如 果 我 只 是 需要 扫描 
自己 的 E-mail， 得 到 一 些 错误 结果 并 不 算是 问题 。 而 且 ， 我 没准 会 用 更 简单 的 表达 式 ， 


% egrep -i ‘\<http://[* ]*\.html?\>’ files.. 


在 深入 了 解 如 何 调 校 正则 表达 式 之 后 ， 读 者 会 明白 ， 要 想 在 复杂 性 和 完整 性 之 间 求 得 平衡 ， 
一 个 重要 的 因素 是 了 解 待 搜索 的 文本 。 下 一 章 ， 我 们 会 更 详细 地 考察 这 个 例子 。 
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HTML tag 


对 egrep 这 样 的 工具 来 说 ， 简 单 地 匹配 包含 HTML tag 的 行 并 不 常见 ， 也 没什么 用 。 但 是 ， 
探索 如 何 准确 匹配 一 个 HTML tag 却 是 相当 有 启发 的 ， 在 下 一 章 深入 接触 更 高 级 的 工具 时 ， 
这 一 点 尤其 明显 。 


简单 的 例子 包括 “<TITLE>” 和 “<HR>' ,我们 可 能 会 想到 <.*>,。 这 个 简单 的 表达 式 往往 是 
最 直接 的 想法 , 但 它 显 然 是 不 对 的 。< .*>, 的 意思 是 ,“ 先 匹配 一 个 “<', 然后 是 任意 多 个 任 
意 宁 符 , 然 后 是 '>'”。 所 以 , 它 无 疑 能 够 匹配 不 止 一 个 tag 的 内 容 , 例 如 ‘this <I>short</1> 
example” 中 标记 的 内 容 。 


也 许 结果 有 点 出 乎 你 的 意料 ， 但 是 我 们 目前 还 只 在 第 1 章 ， 对 正则 表达 式 的 理解 也 不 够 深 
入 。 我 之 所 以 举 这 个 例子 ， 是 想 说 明正 则 表达 式 并 不 复杂 ， 但 是 如 果 你 不 真正 弄 民 它们 ， 
可 能 会 被 搞 得 量 头 转向 。 在 下 面 的 几 章 中 ， 我 们 会 学 习 理解 和 解决 这 个 问题 需要 的 所 有 细 
ti. 





表示 时 刻 的 文字 ， 例 如 “9:17 am" RA “12:30 pm” 


匹配 表示 时 刻 的 文字 可 能 有 不 同 的 严格 程度 。 
1[0-91?[0-9]:[0-9][0-9].(amlpm)) 
能 够 匹配 9:17-am 或 者 12:30"pm， 但 也 能 匹配 无 意义 的 时 刻 ， 如 99:99'pm。 


首先 看 小 时 数 ， 我 们 知道 ， 如 果 小 时 数 是 一 个 两 位 数 ， 第 一 位 只 能 是 1。 但 是 1?[0-9] | 
仍然 能 够 匹配 19 (也 能 够 匹配 0), 所 以 更 好 的 办 法 应 该 是 把 小 时 部 分 分 为 两 种 情况 来 处 理 ， 
'1(012) ,匹配 两 位 数 , '[1-9]) 匹 配 一 位 数 ， 结 果 就 是 '(1[012] 1[1-9])。 


分 钟 数 就 简单 些 。 第 一 位 数字 应 该 是 '[0-51;, 此 时 第 二 位 数字 应 该 是 '{0-911。 综合 起 来 就 
是 和 (1[012]1[1-9]):[0-5] [0-9]*(amlpm) j. 


举一反三 , 你 能 够 处 理 24 小 时 制 的 时 间 吗 ? 多 动 动脑 筋 , 想 想 该 如 何 处 理 以 0 开头 的 情况 ， 
比如 09:59 呢 ? 答案 请 见 下 页 。 


if 
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正则 表达 式 术语 汇总 


Regular Expression Nomenclature 
正则 (regex) 


你 或 许 已 经 猜 到 了 ,“ 正 则 表达 式 ”(regular expression) 这 个 全 名 念 起 来 有 点 麻烦 ， 写 出 来 
就 更 麻烦 。 所 以 ， 我 一般 会 采用 “正则 ”(regex) 的 说 法 。 这 个 单词 念 起 来 很 流畅 《有 点 像 
联邦 快递 的 FedEx, $ regular 一 样 ，g 发 重音 ， 而 不 同 于 Regina) ， 而 且说 “如 果 你 写 一 个 正 
则 ”,“ 巧 妙 的 正则 ”(budding regexers) ， 甚 至 是 “正则 化 ”(regexification) (7% 10) (译注 4)。 


匹配 (matching) 


一 个 正则 表达 式 “匹配 ”一 个 字符 串 ， 其 实 是 指 这 个 正则 表达 式 能 在 字符 串 中 找到 匹配 文 
Æ. Miti, EMRAN a 不 能 匹配 cat, ， 但 是 能 匹配 cat 中 的 a。 几 乎 没 人 会 混 清 这 
两 个 概念 ， 但 证 清 一 下 还 是 有 必要 的 。 


元 字符 (metacharacter) 


一 个 字符 是 否 元 字符 (或 者 是 “元 字符 序列 ”(metasequence)， 这 两 个 概念 是 相等 的 )， 取 
决 于 应 用 的 具体 情况 。 例 如 ， 只 有 在 字符 组 外 部 并 且 是 在 未 转 义 的 情况 下 , *; 才 是 一 个 元 
字符 。“ 转 义 ”(escaped) 的 意思 是 , 通常 情况 下 在 这 个 字符 之 前 有 一 个 反 斜 线 。\*1 是 对 *) 
的 转 义 而"\*! 则 不 是 (第 一 个 反 斜 线 用 来 转 义 第 二 个 反 斜 线 )， 虽 然 在 两 个 例子 中 ， 星 
号 之 前 都 有 一 个 反 斜 线 。 


正则 表达 式 的 流派 (flavor) 不 同 ， 关 于 字符 转 义 的 规定 也 不 相同 。 第 3 章 对 此 进行 了 详细 
讨论 。 


流派 (flavor) 


我 已 经 说 过 ， 不 同 的 工具 使 用 不 同 的 正则 表达 式 完 成 不 同 的 任务 ， 每 样 工 具 支 持 的 元 字符 
和 其 他 特性 各 有 不 同 。 我 们 再 举 单词 分 界 符 的 例子 。 某 些 版 本 的 egrep 支持 我 们 曾 见 过 的 
\<…\> 表 示 法 。 而 另 一 些 版 本 不 支持 单独 的 起 始 和 结束 边界 ， 只 提供 了 统一 的 bo 元 字符 
(这 个 元 字符 我 们 还 设 见 过 ， 下 一 章 才 会 用 到 )。 还 有 些 工具 同时 支持 这 两 种 表示 法 ， 另 有 
许多 工具 哪 种 也 不 支持 。 


我 用 “流派 (flavor)” 这 个 词 来 描述 所 有 这 些 细微 的 实现 规定 。 这 就 好 像 不 同 的 人 说 不 同 的 
方言 一 样 。 从 表面 上 看 “流派 ” 指 的 是 关于 元 字符 的 规定 ， 但 它 的 内 容 远 远 不 止 这 些 。 


注 10: 你 或 许 会 想到 那个 难看 的 缩写 regexp。 我 不 知道 这 个 词 应 该 如 何 发 音 ， 口 上 不 清 的 人 读 
起 来 可 能 会 容易 一 点 。 

译注 4: 正则 表达 式 的 全 名 是 regular expression， 简 写 为 regex， 原 著 中 此 处 的 标题 即 为 regex， 
采用 中 文 简称 “正则 ”。 


iil 
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即使 两 个 程序 都 支持 人 <…\>,， 它们 可 能 对 这 两 个 元 字符 的 意义 有 不 同 的 理解 ,对 单词 的 理 
解 也 不 相同 。 在 使 用 具体 的 工具 软件 时 ， 这 个 问题 尤其 重要 。 


改进 匹配 时 间 的 表达 式 ， 处 理 24 小 时 制 时 间 
+ 26 页 问题 的 答案 


办 法 有 许多 种 , 不 过 思路 和 之 前 差不多 。 现在 我 们 把 问题 分 为 3 部 分 : 其 一 是 上 午 (小 
时 数 从 00 到 09, 开头 的 0 可 选 ) ， 其 二 是 白天 (小 时 数 从 10 到 19)， 其 三 是 夜晚 (小 
时 数 从 20 到 23)。 这 样 答案 就 很 明显 了 :'0?3[0-9] 110-9] 12[0-3]s, 

实际 上 ， 我 们 可 以 合并 头 两 个 多 选 分 支 ， 得 到 '[01]?[0-9]12[0-3] ,。 你 可 能 需要 动 
点 脑筋 才能 明白 这 个 表达 式 与 上 面 是 完全 等 价 的 。 下 面 的 图 可 能 有 所 帮助 ， 它 还 提供 


了 另 一 种 思路 。 阴 影 部 分 表示 单个 多 选 分 支 能 够 匹配 的 数字 。 
左 图 右 图 


(01)? [0-9] |e (01)? (4-9) | a , 
9] aj 2| 3| 4] 5| 6| 7| sls 





请 不 要 混淆 “流派 (flavor)” 和 “工具 (tool)” 这 两 个 概念 。 两 个 人 可 以 说 同样 的 方言 ， 
两 个 完全 不 同 的 程序 也 可 能 属于 同样 的 流派 。 同 样 ， 两 个 名 字 相同 的 程序 (解决 的 任务 也 
相同 ) 所 属 的 流派 可 能 有 细微 《有 时 可 能 并 非 细 微 ) 的 差别 。 有 许多 程序 都 叫 egrep， 它 们 
所 属 的 流派 也 五 花 八 门 。 


由 Perl 语言 的 正则 表达 式 开创 的 流派 ， 在 20 世纪 90 年 代 中 期 因为 其 强大 的 表达 能 力 广 为 
人 们 所 知 ， 其 他 语言 紧 随 其 后 ， 提 供 了 汲取 其 中 灵感 的 正则 表达 式 (其 中 许多 为 了 标明 自 
己 的 思想 来 源 ， 直 接 给 自己 贴 上 “兼容 Perl (Perl-Compatible)” 的 标签 )。 它 们 包括 PHP, 
Python, Java 的 大 量 正则 包 ， 微软 的 .NET Framework, Tel, 以 及 C 的 各 种 类 库 。 不 过 ， 所 
有 这 些 语言 在 重要 的 方面 各 有 不 同 。 而 且 Perl 的 正则 表达 式 也 在 不 断 演化 和 发 展 (现在 ， 
有 时 候 是 受 了 其 他 语言 的 正则 表达 式 的 刺激 )。 像 往常 一 样 ， 总 的 局 面 变 得 越 来 越 复杂 ， 让 
人 困惑 。 
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子 表达 式 (subexpression) 


“ 子 表达 式 ” 指 的 是 整个 正则 表达 式 中 的 一 部 分 , 通常 是 括号 内 的 表达 式 ， 或 者 是 由 | 分 
隔 的 多 选 分 支 。 例如 , ^ (Subject |Date) :+s tH, ‘subject | Date, ii BMA — TF RIK 
A. FEA ‘subject, 和 Date HAA LFAIAK. 而 且 , 严格 说 起 来 ,sj、'u、b、3j 这 些 
字符 ， 都 算 子 表达 式 。 


1-6 这 样 的 字符 序列 并 不 能 算 'H[1-61**, 的 子 表达 式 ， 因 为 “1-6 所 属 的 字符 组 是 不 可 分 
割 的 “单元 (unit)”。 但 是 , HI、'[1-6]1、"* 都 是 'H[1-6]** FRIAR, 


与 多 选 分 支 不 同 的 是 ， 量 词 ( 星 号 、 加 号 和 问号 ) 作用 的 对 象 是 它们 之 前 紧邻 的 子 表 达 式 。 
所 以 mis+pell; 中 的 + 作用 的 是 's,, 而 不 是 misi 或 者 isi。 当 然 , 如 果 量 词 之 前 紧邻 的 是 
一 个 括号 包围 的 子 表达 式 ， 整 个 子 表达 式 (无 论 多 复杂 ) 都 被 视 为 一 个 单元 。 


字符 (character) 


“字符 ”在 计算 机 领域 是 一 个 有 特殊 意义 的 单词 。 一 个 字 节 所 代表 的 单词 取决 于 计算 机 如 
何 解释 。 单 个 字 节 的 值 不 会 变化 ， 但 这 个 值 所 代表 的 字符 却 是 由 解释 所 用 的 编码 来 决定 的 。 
例如 ， 值 为 64 和 53 的 字 节 ， 在 ASCII 编码 中 分 别 代 表 了 字符 “e"” 和 “5"， 但 在 EBCDIC 
编码 中 ， 则 是 完全 不 同 的 字符 (一 个 是 空格 ， 一 个 是 控制 字符 )。 


另 一 方面 ， 在 流行 的 日 文字 符 编码 中 ， 这 两 个 字 节 代表 一 个 字符 正 。 如 果 换 一 种 日 文字 符 
编码 ,这 个 字 就 需要 两 个 完全 不 同 的 字 节 。 那 两 个 字 节 ,在 通行 的 Latin-1 编码 中 ,表示 “和 Ab"， 
而 在 Unicode 编码 中 又 表示 韩文 的 “ 针 ”( 注 11) 。 问 题 在 于 ， 字 节 如 何 解释 只 是 视角 ( 称 
为 “编码 ”encoding) 的 问题 ， 我 们 要 做 的 只 是 确保 自己 的 视角 和 正在 使 用 的 工具 的 视角 相 
同 。 


注 11: 关于 多 字 节 编码 的 权威 著作 是 Ken Lunde 的 CJKYV Information Processing， 这 本 书 亦 由 
O'Reilly 出 版 。CJKV 表示 Chinese, Japanese, Korean 和 Viemamese (汉语 、 日 语 、 韩 语 
和 越南 语 )， 这 4 种 语言 都 必须 使 用 多 字 节 编码 。Ken 和 Adobe 热心 地 提供 了 本 书 所 需 的 
特殊 字体 。 
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一 直 以 来 ， 文 本 处 理 软件 一 般 都 把 数据 视 为 一 些 ASC 编码 的 字 节 ， 而 不 考虑 使 用 者 期 望 
采用 的 字符 编码 。 不 过 , 近来 已 经 有 越 来 越 多 的 系统 在 内 部 使 用 某 些 格式 的 Unicode 编码 来 
处 理 数据 (第 3 章 介绍 了 Unicode, 一 105)。 如 果 这些 系 统 中 的 正则 表达 式 子 系统 的 实现 方 
式 正 确 ， 使 用 者 通常 就 不 需要 在 编码 的 问题 上 费 太 多 工夫 。 这 个 “如 果 ” 相 当 复杂 ， 所 以 
第 3 章 深入 讲解 了 这 个 问题 。 


改进 现状 


Improving on the Status Quo 


总 的 来 说 ， 正 则 表达 式 并 不 难 。 但 是 ， 如 果 你 与 使 用 过 支持 正则 表达 式 的 程序 或 语言 的 人 
交流 过 就 会 发 现 ， 某 些 人 确实 “会 用 ”正则 表达 式 ， 但 如 果 需 要 解决 复杂 的 问题 ， 或 是 换 
用 他 们 不 熟悉 的 工具 ， 就 会 出 问题 。 


传统 的 正则 表达 式 文 档 大 都 只 包含 一 两 个 元 字符 的 简略 介绍 ， 然 后 就 给 出 关于 其 他 元 字符 
的 表格 。 给 出 的 例子 通常 也 是 无 意义 的 'a* ((ab)*1b*)，;,， 文 本 则 是 ‘a*xxx*ce*xxxxxx 
ci*xxx*d'。 这 些 文档 大 都 忽略 了 细微 但 重要 的 知识 点 ， 总 是 声称 自己 与 其 他 出 名 的 工具 属 
于 同一 流派 ， 而 忘记 提 及 必然 存在 的 差异 。 它 们 缺乏 实用 价值 。 


当然 ， 我 的 意思 并 不 是 ， 本 章 就 能 够 填补 这 道 锅 沟 ， 让 读者 掌握 所 有 正则 表达 式 ， 或 是 掌 
提 egrep 的 正则 表达 式 。 相 反 , 这 一 章 只 是 为 本 书 的 其 他 内 容 铺垫 基础 。 我 希望 本 书 能 够 为 
读者 填补 这 道 鸿 沟 ， 虽 然 这 期 望 有 点 自负 。 很 多 读者 很 满意 本 书 的 第 一 版 ,我 本 人 也 为 拓 
展 这 一 版 的 深度 和 广度 付出 了 艰苦 的 努力 。 


或 许 是 因为 正则 表达 式 的 文档 一 直 都 非常 欠缺 ， 我 感到 自己 必须 做 出 额外 的 努力 ， 才 能 把 
知识 梳理 清楚 。 因 为 我 希望 保证 读者 能 够 充分 运用 正则 表达 式 的 潜力 ， 我 希望 你 们 能 够 真 
正 精 通 正则 表达 式 。 


这 既是 件 好 事 也 是 件 坏事 。 


好 处 在 于 ， 你 将 学 会 如 何以 正则 表达 式 的 方式 来 思考 问题 。 你 将 学 习 到 ， 在 面 对 属 于 不 同 
流派 的 新 工具 时 ， 需 要 注意 哪些 差异 和 特性 。 你 还 将 会 学 习 到 ， 如 果 某 个 流派 的 功能 弱小 、 
特性 简陋 ， 该 如 何 表达 自己 的 意图 。 你 将 会 明白 ， 一 个 正则 表达 式 的 效率 优 于 其 他 表达 式 
的 原因 所 在 ， 而 且 你 将 能 够 在 复杂 性 、 效 率 和 匹配 准确 性 间 进 行 取舍 权衡 。 
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面 对 特 别 复杂 的 任务 ， 你 将 会 知道 如 何 通过 程序 容许 的 方式 来 构建 和 使 用 正则 表达 式 。 总 
的 来 说 ， 你 能 够 得 心 应 手 地 使 用 正则 表达 式 的 所 有 法 能 .。 


问题 在 于 ， 这 种 方法 的 学 习 曲 线 非 常 陡 峭 ， 而 且 还 有 几 大 难点 : 


。 “正则 表达 式 的 使 用 许多 程序 使 用 的 正则 表达 式 比 egrep 要 复杂 。 在 我 们 探讨 如 何 构造 
真正 有 用 的 正则 表达 式 的 细节 之 前 ， 需 要 知道 正则 表达 式 的 使 用 方法 。 下 一 章 关 注 这 
一 问题 。 


。 正则 表达 式 的 特性 (feature) 面 对 问 题 ， 选 择 合适 的 工具 是 成 功 的 一 半 ， 所 以 我 会 在 
全 书 中 使 用 多 种 工具 。 不 同 的 程序 ， 甚 至 是 同一 个 程序 的 不 同 版 本 ， 支 持 的 特性 和 元 
字符 都 不 - 样 。 在 了 解 使 用 细节 之 前 ,我 们 必须 搞 清楚 这 个 问题 。 这 是 第 3 章 的 主题 。 


*。 “正则 表达 式 的 工作 原理 在 我 们 接触 有 用 (但 通常 也 很 复杂 ) 的 例子 之 前 , 我 们 必须 “ 揭 
开 盖 子 ” 来 了 解 正则 表达 式 的 工作 原理 。 我 们 将 会 看 到 ， 对 某 些 元 字符 进行 尝试 匹配 
的 次 序 是 一 个 重要 的 问题 。 实 际 上 ,正则 表达 式 引 擎 (regular expression engine) 不 同 ， 
工作 原理 也 不 同 ， 所 以 对 于 同样 的 正则 表达 式 ， 不 同 的 程序 会 得 到 不 同 的 结果 。 我 们 
将 在 第 4、5、6 章 中 探讨 这 个 复杂 的 问题 。 


正则 表达 式 的 工作 原理 是 最 重要 同时 也 是 最 难以 掌握 的 知识 。 研 究 这 个 问题 有 时 的 确 很 枯 
燥 ， 更 精 糕 的 是 ， 读 者 在 接触 真正 有 趣 的 内 容 一 一 解决 实际 问题 一 一 之 前 ， 不 得 不 耐 着 性 
子 看 完 它们 。 然 而 ， 弄 懂 正 则 表达 式 的 工作 原理 ， 才 是 真正 理解 的 关键 。 


你 或 许 会 想 ， 如 果 只 希望 学 会 开车 ， 是 不 需要 了 解 汽 车 运行 原理 的 。 但 是 ， 学 习 开车 与 学 
习 正则 表达 式 之 间 并 没有 多 少 相似 性 。 我 的 目的 是 教会 读者 如 何 使 用 正则 表达 式 -一 一 也 就 
是 编写 正则 表达 式 一 一 来 解决 问题 。 更 合适 的 比喻 是 ， 学 习 正则 表达 式 就 如 同学 习 如 何 千 
车 ， 而 不 是 如 何 开 车 。 在 制造 汽车 以 前 ， 我 们 必须 了 解 汽 车 的 工作 原理 。 


第 2 章 提供 了 更 多 的 关于 开车 的 经 验 。 第 3 章 简要 回顾 了 开车 的 历史 ， 详 细 考 察 了 正则 表 
达 式 流派 的 主要 内 容 。 第 4 章 介 绍 了 正则 表达 式 流派 的 重要 的 引擎 。 第 5 章 展 示 了 一 些 更 
复杂 的 例子 ， 第 6 章 告诉 你 如 何 调 校 某 种 具体 的 引擎 ， 之 后 的 各 章 则 是 检查 具体 的 产品 和 
模型 。 在 第 4、5、6 章 中 ,我 们 花 了 大 量 的 篇 幅 来 探讨 幕后 的 原理 ， 所 以 请 务必 做 好 准备 。 
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总 结 
Summary 


表 1-3 总 结 了 我 们 在 本 章 中 见 过 的 egrep 的 元 字符 。 
表 1-3: egrep 的 元 字符 总 结 






E SRA NER 
ERAT AAR 
排除 型 字符 组 匹配 单个 未 列 出 的 字符 


若 char 是 元 字符 ， 或 转 义 序列 无 特殊 含义 时 , 匹配 







[…] 
[^e] 







= clea | char 对 应 的 普通 字符 

EES grt + al ug ae Ben 

2 etek, abe 

: 是 号 | 可 以 匹配 任意 多 次 ， 也 可 能 不 匹配 
| 至 少 需要 匹配 一 次 ， 至 多 可 能 任意 多 次 

[min mas) EYER mink, £5 EH mack 


1 got 


Se cas ae RR ER 







匹配 一 行 的 开头 位 置 
匹配 一 行 的 结束 位 置 


$ 
匹配 任意 分 隔 的 表达 式 
限定 多 选 结构 的 范围 ， 标 注 量词 作用 的 元 素 ， 为 反 
向 引用 “捕获 ”文本 
o 匹配 之 前 的 第 一 、 第 二 组 括号 内 的 字 表 达 式 匹 配 的 
WAZ ic 反 向 引用 
N I it 


此 外 ， 请 务必 理解 以 下 几 点 : 


。 ”各 个 egrep 程序 是 有 差别 的 。 它 们 支持 的 元 字符 ， 以 及 这 些 元 字符 的 确切 含义 ， 通 党 
都 有 差别 一 一 请 参考 相应 的 文档 (23)。 


。 ”使 用 括号 的 3 个 理由 是 : 限制 多 选 结构 (13)、 分 组 (14) 和 捕获 文本 (721). 
。 ”字符 组 的 特殊 性 在 于 ， 关 于 元 字符 的 规定 是 完全 独立 于 正则 表达 式 语言 “主体 ”的 。 
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。 ”多 选 结构 和 字符 组 是 截然 不 同 的 ， 它 们 的 功能 完全 不 同 ， 只 是 在 有 限 的 情况 下 ， 它 们 
的 表现 相同 (713). 


° ”排除 型 字符 组 同样 是 一 种 “肯定 断言 ”(positive assertion) 一 一 即使 它 的 名 字 里 包含 了 
“排除 ”两 个 字 ， 它 仍然 需要 匹配 一 个 字符 。 只 是 因为 列 出 的 字符 都 会 被 排除 ， 所 以 
最 终 匹 配 的 字符 肯定 不 在 列 出 的 字符 之 内 (712). 


” -的 参数 很 有 用， 它 能 进行 忽略 大 小 写 的 匹配 (715), 
° FECA 3 种 情况 ， 
1. ,加 上 元 字符 ,表示 匹配 元 字符 所 使 用 的 普通 字符 (例如 *, 匹配 普通 的 星 号 )。 


2. ,加 上 非 元 字符 ,组 成 一 种 由 具体 实现 方式 规定 其 意义 的 元 字符 序列 (例如, ^< 
表示 “单词 的 起 始 边 界 ”)。 


3. \ 加 上 任意 其 他 字符 ， 默 认 情 况 就 是 匹配 此 字符 (也 就 是 说 ， 反 斜 线 被 包 赂 了 ) 。 


请 记 住 , 对 大 多 数 版 本 的 egrep 来 说 , 字符 组 内 部 的 反 斜 线 没有 任何 特殊 意义 ,所 以 此 
时 它 并 不 是 一 个 转 义 字符 。 


。 ”由 星 号 和 问号 限定 的 对 象 在 “匹配 成 功 ” 时 可 能 并 没有 匹配 任何 字符 。 即 使 什么 字符 
都 不 能 匹配 到 ， 它 们 仍然 会 报告 “匹配 成 功 ”。 


一 家 之 言 


Personal Glimpses 


本 章 开 始 的 单词 重复 的 例子 可 能 有 些 让 人 迷惑 ， 不 过 正则 表达 式 的 功能 的 确 很 强大 ， 我 们 
只 需要 egrep 这 样 简单 的 工具 , 用 第 ! 章 的 知识 ， 就 能 够 基本 解决 这 个 问题 。 我 倒是 希望 在 
本 章 多 讲 些 复杂 点 的 例子 ， 但 是 因为 我 希望 用 第 | 章 为 后 面 的 章节 打下 坚实 的 基础 ， 我 担 
心 ， 如 果 这 一 章 满 是 提醒 、 注 意 、 规 则 之 类 ， 那 些 从 未 接触 过 正则 表达 式 的 人 在 读 完 之 后 ， 
或 许 会 感到 困惑 一 一 “需要 这 么 麻烦 吗 ? ” 


我 哥哥 曾 教 朋 友 玩 一 种 叫 schaffkopf 的 纸牌 游戏 , 这 个 游戏 在 我 们 家 流传 了 好 几 代 了 。 其 中 
真正 的 乐趣 并 不 会 在 第 一 次 接触 时 体会 到 ， 而 且 学 习 的 曲线 也 很 陡峭 。 我 的 嫂子 丽 兹 平时 
是 最 有 耐心 的 人 ， 但 玩 了 半 个 小 时 就 对 这 些 复杂 的 规则 感到 灰心 丧气 了 ， 她 说 “我 们 不 能 
不 能 玩 兰 米 (译注 5) 吗 ? ”不 过 最 后 的 结果 是 ， 包 括 丽 兹 在 内 的 所 有 人 都 玩 到 很 晚 。 只 要 


译注 5: 兰 米 rummy 是 一 种 比较 简单 、 流 行 的 玩法 。 
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度 过 了 开始 的 难关 ， 接 下 来 的 刺激 就 会 引诱 他 们 继续 向 前 。 我 哥哥 知道 肯定 会 这 样 ， 但 丽 
效 和 其 他 玩 伴 需 要 花费 时 间 和 工夫 来 继续 深入 才能 体会 到 这 个 游戏 的 乐趣 。 


习惯 正则 表达 式 可 能 需要 花 一 些 时 间 ， 所 以 在 你 没有 真切 体会 到 用 正则 表达 式 解决 问题 的 
成 就 感 时 ， 可 能 会 觉得 这 样 有 点 迁 腐 。 如 果 是 ， 我 希望 你 能 够 抵抗 住 “ 玩 兰 米 游戏 ”的 诱 
惑 。 一 旦 你 掌握 了 正则 表达 式 的 强大 功能 ， 就 会 感到 花 在 学 习 上 的 那些 时 间 真 是 物 超 所 值 。 
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Extended Introductory Examples 


还 记得 第 1 章 中 单词 重复 的 例子 吗 ? 我 说 过 ， 完 整 解决 这 个 问题 只 需要 用 Perl 之 类 的 语言 
写 几 行 代码 。 它 看 起 来 像 是 这 样 : 


S/ = Ns 
while (<>) { 
next if 'S/Nb( [a-z] +) ( (?:\81<[^>]+>)+) (\1\b) /\e[7m$1\e [m$2\e[7m$3\e[m/ig; 
S/^(?:[^\e]*\n)+//mg; # 去 除 未 标记 的 行 
s/*/$ARGV: /mg; # 在 行 首 添加 文件 名 
print; Ry ee ta, 
} 


ow 
即便 你 对 Per ATAR, SL 
是 ， 这 个 例子 让 你 看 到 eprep . 















这 段 程序 (至少 目前 如 此 )。 我 希望 的 
PALA TIE MARA REED. 


TE 
。 ‘\p(fa-z] +) (1 ga : 
© I(?:[^ \el*\n) +e AA 、 

. la x4 he SRS 
gence 4 
尽管 这 是 一 个 Perf Bes at jU (或 者 只 需要 做 很 少 的 改 

K'S AS 
动 ) SCA bP la oF 

现在 来 看 这 3 A 


= Tol 等 等 。 

个 式 包含 我 们 在 egrep 中 
LOREAL 因为 人 e EE LN 未 法 有 所 不 同 ,而 
C a 
中 见 到 许多 例子 。 AEN To SNe ~” Pea es 


mH HA 
es 
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大 于 这 些 例子 


About the Examples 


本 章 包 括 了 一 些 常 见 的 问题 一 一 验证 用 户 的 输入 数据 ， 处 理 E-mail header (电子 邮件 头 )， 
把 纯 文 本 数据 转换 为 超 文本 格式 (HTML)， 通 过 这 些 问题 ， 你 将 真正 见识 到 正则 表达 式 的 
世界 。 在 构造 正则 表达 式 时 ， 我 会 做 些 尽 可 能 详细 的 讲解 ， 提 供 一 些 启示 。 在 这 个 过 程 中 ， 
我 们 会 见 到 一 些 egrep 没有 提供 的 结构 和 特性 ， 也 会 专门 花 很 多 篇 幅 来 探讨 其 他 重要 的 概 


在 本 章 的 末尾 及 下 面 的 各 章 中 国 我 会 使 用 各 种 语言 ,包括 PHP, Java 和 VB.NET， 但 是 本 
章 中 我 们 主要 使 用 的 还 是 Pei。 这些 语言 见 当然 出 包括 其 他 许多 语言 ,对 正则 表达 式 的 操纵 
能 力 都 远 远 强 于 egrep， 所 以 使 用 其 中 任何 二 种 作为 也 范 都 会 让 我 们 见 到 许多 有 趣 的 内 容 。 
我 选择 以 Perl 开始 ， 主 要 是 因为 ， 在 所 有 流行 的 语言 中 Perl 对 正则 表达 式 的 支持 很 完 
且 易 于 使 用 。 而 且 ，Per 还 查 供 子 许多 其 他 紧凑 的 数据 处 理 结构 (data-handling constructs) , 
能 够 减少 所 需 的 “简单 重复 劳动 dirty work) 光 以便 我 们 把 精力 集中 到 正则 表达 式 上 。 


第 2 页 出 现 的 文件 检查 的 程序 很 好 地 说 明了 这 种 能 力 ， 我 需要 用 这 个 程序 来 确定 每 个 文件 
中 “ResetSize” 出 现 的 次 数 与 “Set size” 出 现 的 次 数 是 否 一 样 多 。 我 选择 的 语言 是 Perl, 
命令 如 下 : 


% perl -One 'print “$ARGV\n” if s/ResetSize//ig != s/SetSize//ig'’ * 


(我 并 不 奢望 你 现在 就 能 明白 这 条 命令 一 一 我 只 希望 你 能 注意 到 这 条 命令 有 多 简洁 。) 


我 喜欢 Pen ， 但 现在 讨论 的 主题 不 是 Perl。 请 记 住 ,本章 的 重点 是 正则 表达 式 。 这 有 点 儿 像 
计算 机 系 的 教授 在 第 一 学 年 的 课堂 上 说 的 “你 们 将 会 在 这 里 学 习 计算 机 科学 知识 ， 但 我 们 
选择 用 Pascal 语言 作为 学 习 的 工具 ”( 注 1)。 


因为 本 章 并 不 假设 读者 已 经 懂得 Perl， 所 以 我 会 做 些 必要 的 讲解 ， 让 你 明白 这 些 例子 (第 7 
章 讲解 Perl 的 本 质 的 细节 , 它 假设 读者 懂得 一 些 基本 的 知识 )。 即使 你 曾经 用 过 好 几 门 语言 ， 
Perl 也 可 能 让 你 觉得 奇怪 ， 因 为 它 的 语法 极 精炼 ， 语 意 又 极 丰富 。 为 了 让 这 些 例子 更 清楚 ， 
我 不 会 使 用 Per 提供 的 这 些 特 性 ， 而 是 用 一 种 更 普通 的 近乎 伪 码 的 风格 来 展示 这 些 程序 。 
BRATE “MERI”, (ix AEA Perl 的 编程 风格 。 不 过 ， 我 们 将 通过 它们 认识 到 
正则 表达 式 的 重要 作用 。 


注 1: Pascal 是 一 种 传统 的 程序 设计 语言 , 设计 的 初衷 是 为 了 教学 。 这 个 比喻 来 自 William F.Maton 
和 他 的 教授 。 
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Perl 简单 入 门 


A Short Introduction to Perl 


Perl 是 一 门 功能 强大 的 脚本 语言 , 诞生 于 20 世纪 80 年 代 末期 , 其 思想 主要 来 自 其 他 的 编程 
语言 和 工具 。Perl 关于 文本 处 理 和 正则 表达 式 的 许多 概念 来 自 两 种 专业 化 的 语言 awk 和 sed, 
它们 都 非常 不 同 于 “传统 ”的 语言 ， 例 如 C 和 Pascal, 


Perl 可 以 应 用 于 许多 平台 ， 包 括 DOS/Windows, MacOS, OS/2, VMS 和 Unix。 它 的 文本 
处 理 能 力 极其 强大 ， 是 关于 Web 的 处 理 中 最 常 使 用 的 工具 。 如 果 要 获得 对 应 你 的 机 器 版 本 
的 Perl， 请 参考 www.perl.com, 


本 书 是 为 Perl 的 5.8 版 而 写 的 ， 不 过 本 章 的 例子 可 以 在 5.005 以 后 的 版 本 上 使 用 。 
现在 来 看 一 个 简单 的 例子 : 


celsius = 30; 
Sfahrenheit = ($celsius * 9 / 5) + 32; # 计算 华氏 温度 
print “$celsius C is $fahrenheit F.\n"; # 返回 摄氏 和 华氏 温度 


执行 这 段 程序 ， 结 果 是 : 


30 C is 86 F. 


$fahrenheit 和 $celsius 之 类 的 普通 变量 一 般 以 s 开 头 ， 可 以 保存 一 个 数值 或 者 任意 长 度 
的 文本 (在 本 例 中 只 保存 了 数值 )。 从 # 到 行 尾 都 是 注释 。 


如 果 你 曾经 使 用 过 C、C# 或 者 Java, VB.NET, 你 可 能 无 法 理解 在 Perl 中 变量 居然 能 够 出 现 
在 双 引 号 包围 的 字符 串 中 。 在 字符 串 “s$celsius C is $fahrenheit F.\n” 中 ， 每 个 变 
量 都 会 被 它 的 实际 值 所 取代 。 在 本 例 中 ， 结 果 就 是 打印 出 来 的 字符 串 (n 代表 换行 )。 


Per 也 提供 了 跟 其 他 流行 的 语言 类 似 的 控制 结构 : 


$celsius = 20; 

while ($celsius <= 45) 

{ 
fahrenheit = ($celsius * 9 / 5) + 32; # 计算 华氏 温度 
print “$celsius C is $fahrenheit F.\n"; 
Scelsius = $celsius + 5; 

} 


在 条 件 为 真 ( 即 $celeiue <= 45) Ft, while 循环 控制 的 部 分 会 重复 执行 。 把 这 段 代 码 写 
入 到 一 个 程序 中 ， 例 如 temps， 我 们 可 以 直接 从 命令 行 运行 它 。 
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下 面 是 运行 的 结果 : 
% perl -w temps 
20 C is 68 F. 
25 Ç 15 7I F; 
30 C is 86 F. 
35 C is 95 F. 
40 C is 104 F. 
45 C is 113 F. 


-w 参数 并 不 是 运行 所 必须 的 ， 与 正则 表达 式 也 没有 直接 的 联系 。 它 只 是 告诉 Peri ， 仔 细 检 
查 我 们 的 程序 ， 在 Perl 认为 可 疑 的 地 方 发 出 警报 (例如 没有 初始 化 的 变量 之 类 一 一 在 Perl 
h, 变量 不 需要 事先 声明 就 能 使 用 )。 在 这 里 加 上 这 个 参数 , 只 是 因为 它 是 一 种 良好 的 习惯 。 





好 了 ， 这 就 是 Perl 的 简单 人 门 。 下 面 我 们 来 看 在 Perl 中 如 何 使 用 正则 表达 式 。 


使 用 正则 表达 式 匹 配 文本 


Matching Text with Regular Expressions 


Perl 可 以 以 多 种 方式 使 用 正则 表达 式 ,最 简单 的 就 是 检查 变量 中 的 文本 能 否 由 某 个 正则 表达 
式 匹 配 。 下 面 的 代码 检查 $reply 中 所 含 的 字符 串 ， 报 告 这 个 字符 串 是 否 全 部 由 数字 构成 : 


if (Sreply =~ m/*[0-9]+$/) { 
print “only digits\n’‘; 
} else { 
print “not only digits\n’; 
} 
第 一 行 的 代码 也 许 有 些 奇怪 : 正则 表达 式 是 '^[0-9]+$ !， 两 边 的 m/…/ 告 诉 Perl 该 对 这 个 
正则 表达 式 进行 什么 操作 。m 代表 尝试 进 行 “ 正 则 表达 式 匹配 (regular expression match)”, 
斜 线 用 来 标记 界限 ( 注 2)。 之 前 的 =~ 用 来 连接 m/…/ 和 和 欲 搜索 的 字符 串 , 即 本 例 中 的 Sreply。 


请 不 要 混 请 =-、= 和 ==。 运 算 符 == 用 来 测试 两 个 数字 是 否 相 等 (我 们 将 会 看 到 ， 运 算 符 eq 
用 来 测试 两 个 字符 串 是 否 相 等 )。 运 算 符 = 用 来 给 变量 赋值 ， 例 如 $celsius = 20。 最 后 ，=~ 
用 来 连接 正则 表达 式 和 待 搜索 的 目标 字符 串 。 在 这 个 例子 中 ， 要 搜索 的 正则 表达 式 是 
m/^[0-9]+$/， 而 目标 字符 串 是 $reply。 此 程序 在 其 他 语言 中 的 思路 有 所 不 同 ， 我 们 会 在 
下 一 章 看 到 例子 。 


注 2: 在 许多 情况 下 ，m 并 不 是 必须 出 现 的 。 这 个 例子 用 $reply =- /^[0-9]+$/ 也 可 以 ， 有 过 
Perl 编程 经 验 的 读者 或 许 会 觉得 这 样 更 顺眼 。 我 个 人 认为 ， 加 上 m 更 清晰 ， 所 以 我 喜欢 这 
么 做 。 
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把 =~ 读 作 “ 匹 配 (matches)” 可 能 比较 省 事 ， 所 以 
if (Sreply =~ m/^ (0-9] +$/) 
读 作 : 
“如 果 变 量 $reply 所 含 的 文本 能 够 匹配 正则 表达 式 “[0-9]+$,， 那 么 …"” 


如 果 '“^[0-9]+$; 能 够 匹配 $reply 的 内 容 ，$reply =~ m/^【0-9]+$/ 的 返回 值 就 为 true, F 
则 为 false, if 语句 使 用 true/false 值 来 决定 输出 什么 信息 。 


请 注意 ， 如 果 sreply 中 包含 任意 的 数字 字符 ，$reply =~ m/ [0-9]+/ ( 相 比 之 前 的 表达 式 ， 
去 掉 了 开头 的 脱 字 符 和 结尾 的 美元 符 ) 的 返回 值 就 是 true, WAR -Si 保证 整个 Sreply 
只 包含 数字 。 


现在 把 上 面 两 个 例子 结合 起 来 。 首 先 提 示 用 户 输入 一 个 值 ， 接 收 这 个 输入 ， 用 一 个 正则 表 
达 式 来 验证 ， 确 保 输入 的 是 一 个 数值 。 如 果 是 ， 我 们 就 计算 相应 的 华氏 温度 ， 否 则 ， 我 们 
输出 一 条 报警 信息 : 

print “Enter a temperature in Celsius:\n’; 


$celsius = <STDIN>; # 从 用 户 处 接受 一 个 输入 
chomp ($celsius) ; # 去 挤 $Scelsius 后 面 的 撞 行 符 


if ( $celsius =~ m/*[(0-9)+$/) { 
$fahrenheit = ($celsius * 9 / 5) + 32; # 计 算 华氏 温度 
print “$celsius C is $fahrenheit F\n’; 

} else { 


print “Expecting a number, so I don't understand \"“$celsius\"”.\n’"; 


} 


请 注意 最 后 的 print 语句 有 两 个 转 义 的 双 引 号 , 它们 的 作用 并 不 是 标记 引用 字符 串 的 边界 。 
对 大 多 数 语言 的 文字 字符 串 〈literal string) 来 说 ， 有 时 候 需 要 转 义 某 些 字符 ,做 法 跟 正 则 表 
达 式 中 元 字符 的 转 义 很 相似 。 在 Perl 中 ， 字 符 串 与 正则 表达 式 的 区 别 并 非 很 重要 ， 但 是 在 

Java, Python 等 语言 中 却 极为 重要 。"“ 一 点 题 外 话 一 一 数量 丰富 的 元 字符 ”这 一 节 ( 亚 44) 
更 详细 地 讨论 了 这 个 问题 (VB.NET 是 个 明显 的 例外 ， 在 那里 转 义 双 引 号 用 “““” 而 不 是 
se I 


如 果 我 们 把 这 段 程序 保存 为 c2f， 则 运行 结果 如 下 ; 
% perl -w c2f 
Enter a temperature in Celsius: 


22 
22 C is 71.599999999999994316 F 


哎呀 ， 看 来 〈 至 少 在 某 些 系统 上 ) ，Perl 的 简单 的 print 并 不 能 很 好 地 处 理 浮 点 数 。 
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我 不 想 在 本 章 中 讨论 Perl 的 细节 ,但 是 我 告诉 你 用 printf (“格式 化 输出 (print formatted)” ) 
可 以 解决 这 个 问题 


printf “%.2f C is %.2f F\n", celsius, $fahrenheit; 


这 里 的 printf ÆW C 语言 中 的 printf, Mx Pascal, Tel, elisp 和 Python 中 的 format, 
它 不 会 更 改变 量 的 值 ， 而 只 是 改变 显示 的 方式 。 现 在 的 结果 好 看 多 了 : 
Enter a temperature in Celsius: 


22 
22.00 C is 71.60 F 


向 更 实用 的 程序 前 进 


Toward a More Real-World Example 


让 我 们 扩展 这 个 例子 ， 容 许 输入 负数 和 可 能 出 现 的 小 数 部 分 。 这 个 问题 的 计算 部 分 没 问题 
一 一 Perl 通常 情况 下 不 区 分 整数 和 学 点 数 。 不 过 我 们 需要 修改 正则 表达 式 , 容许 输入 负数 和 
浮 点 数 。 我 们 添加 一 个 -?1 来 容许 最 前 面 的 负数 符号 。 实 际 上 , 我 们 可 以 用 '[-+]?, 来 处 理 
开头 的 正 负 号 。 


要 容许 可 能 出 现 的 小 数 部 分 ， 我 们 添加 和 (\ .10-9]*)?!。 转 义 的 点 号 匹配 小 数 点 ， 所 以 
A. [0-9]*) 用 来 匹配 小 数 点 和 后 面 可 能 出 现 的 数字 。 因为 小. [0-9] 妃 被 "(…) ?所 包围 ， 整 
个 子 表 达 式 都 不 是 匹配 成 果 所 必须 的 (请 注意 , 它 与 ?3[0-9]*, 是 截然 不 同 的 , 对 后 一 个 
表达 式 中 ， 即 使 \ .无 法 匹配 , '[0-9]*) 也 能 够 匹配 接 下 来 的 数字 )。 


把 这 些 综合 起 来 ， 就 得 到 这 样 的 条 件 判断 语句 : 
if ($celsius =~ m/*[-+]?[0-9]+(\.[0-9]1*)2$/) { 


它 能 够 匹配 32, -3.723, +98.6 这 样 的 文字 。 不 过 还 不 够 完善 : 它 不 能 匹配 以 小 数 点 开头 
的 数 (例如 .357)。 当 然 ， 用 户 可 以 添加 一 个 整数 位 0 来 匹配 (例如 0.357)， 所 以 我 认为 
这 并 不 是 一 个 严重 的 问题 。 这 个 浮 点 数 问题 处 理 起 来 得 靠 些 诀 窑 ， 我 们 会 在 第 5 章 详 细 讲 
Re (7194), 


成 功 匹 配 的 副作用 


Side Effects of a Successful Match 


我 们 再 进一步 ， 让 这 个 表达 式 能 够 匹配 摄氏 和 华氏 温度 。 我 们 让 用 户 在 温度 的 末尾 加 上 C 
或 者 F 来 表示 。 我 们 可 以 在 正则 表达 式 的 末尾 加 上 “[cF] 来 匹配 用 户 的 输入 ， 但 还 需要 修 
改 程序 的 其 他 部 分 ， 以 便 识别 用 户 输入 的 温度 类 型 ， 并 进行 相应 的 转换 。 


在 第 ! 章 ， 我 们 看 到 过 某 些 版 本 的 egrep 支持 作为 元 字符 的 \1、\2,、\3,， 用 来 保存 前 面 
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的 括号 内 的 子 表达 式 实际 匹配 的 文本 (721), Perl 和 其 他 许多 支持 正则 表达 式 的 语言 都 支 
持 这 些 功能 ， 而 且 匹 配 成 功 之 后 ， 在 正则 表达 式 之 外 的 代码 仍然 能 够 引用 这 些 匹 配 的 文本 。 


我 们 会 在 下 一 章 看 到 各 种 语言 是 如 何 做 到 这 一 点 的 (7137), (AA Perl 的 办 法 是 通过 变量 
$1, $2, 等 等 ， 它 们 指向 第 一 组 、 第 二 组 、 第 三 组 括号 内 的 子 表达 式 实 际 匹 配 的 文本 。 
这 未 免 有 点 奇怪 ， 它 们 都 是 变量 ， 而 变量 名 则 是 数字 。 正 则 表达 式 匹 配 成 功 一 次 ，Perl 就 会 
设置 一 次 。 


总 结 一 下 ， 在 尝试 匹配 时 ， 正 则 表达 式 中 的 元 字符 "1, 指向 之 前 匹配 的 某 些 文本 ， 匹 配 成 
功 之 后 ， 在 接 下 来 的 程序 中 用 $1 来 引用 同样 的 文本 。 


为 了 保持 例子 的 简洁 ， 集 中 表现 新 的 地 方 ， 我 先 不 考虑 小 数 部 分 ， 之 后 再 来 看 它 。 所 以 ， 
我 们 来 看 $1， 请 比较 : 


$celsius =~ m/*{-+]?[0-9]14(CF]§/ 

和 a- ny 
添加 的 括号 改变 了 正则 表达 式 的 意义 吗 ? 为 了 回答 这 个 问题 ， 我 们 需要 知道 ， 这 些 括号 是 
否 改变 了 星 号 或 者 其 他 量词 的 作用 对 象 , 或 是 "1, 的 意义 。 答案 是 ， 都 没有 改变 ， 所 以 这 个 
表达 式 仍 然 能 够 匹配 相同 的 文本 。 不 过 ， 他 们 确实 围 住 了 我 们 期 望 匹配 字符 串 中 “有 价值 ” 


文本 的 子 表达 式 。 如 图 2-1 所 示 ，$1 保存 那些 数字 ， 而 $2 保存 c 或 者 F。 下 一 页 的 图 2-2 
是 程序 的 流程 图 ， 我 们 发 现 ， 这 个 图 让 我 们 很 容易 地 决定 匹配 之 后 应 该 干什么 。 








2-1: 捕获 型 括号 
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图 2-2: 温度 转换 程序 的 逻辑 流程 
示例 2-1: 温度 转换 程序 


print “Enter a temperature (e.g., 32F, 100C):\n”; 
Sinput = <STDIN>; # 接收 用 户 输入 的 一 行文 本 
chomp ($input) ; # 去 掉 文 本 末尾 的 换行 竺 


if ($input =~ m/*([-+]?[0-9]+) ({CF])$/) 

{ 
# 如 果 程 序 运 行 到 此 ， 则 已 经 匹配 。$1 保存 数字 ，S$2 保存 "C" 或 者 "F” 
SInputNum = $1; # 把 数据 保存 到 已 命名 变量 中 .… 
$type $2; #.. 保 证 程序 清晰 易 懂 


if ($type eq “C") { # 'eq 测试 两 个 字符 事 是 否 相 等 
# 输入 为 摄氏 温度 ， 则 计算 华氏 温度 
$celsius = $InputNum; 
Sfahrenheit = (S$celsius * 9 / 5) + 32; 

} else { 
# 如 果 不 是 "C" ， 则 必然 是 "F"， 计 算 摄 氏 温度 
$fahrenheit = $InputNum; 
Scelsius = ($fahrenheit - 32) * 5 / 9; 


} 
# 现 在 得 到 了 两 个 温度 值 ， 显 示 结 果 : 


printf “%.2f C is %.2f F\n", $celsius, $fahrenheit; 
} else { 


# 如 果 最 开始 的 正则 表达 式 无 法 匹配 ， 报 警 
print “Expecting a number followed by \“C\”" or \"F\",\n"; 
print “so I don't understand \”$input\”.\n”; 
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如 果 上 一 页 的 程序 名 叫 convert， 我 们 可 以 这 样 使 用 : 


% perl -w convert 

Enter a temperature (e.g., 32F, 100C): 
39F 

3.89 C is 39.00 F 

% perl -w convert 

Enter a temperature (e.g., 32F, 100C): 
39C 

39.00 C is 102.20 F 

% perl -w convert 

Enter a temperature (e.g., 32F, 100C): 
oops 

Expecting a number followed by “C” or “F*%, 
so I don't understand “oops”. 


错综复杂 的 正则 表达 式 


Intertwined Regular Expressions 


在 Perl 之 类 的 高 级 语言 中 ， 正 则 表达 式 的 使 用 与 其 他 程序 的 逻辑 是 混合 在 一 起 的 。 为 了 说 
明 这 一 点 ， 我 们 对 这 个 程序 做 三 点 改进 : 像 之 前 一 样 能 够 接收 浮 点 数 ， 容 许 £ 或 者 < 是 小 
写 ， 容 许 数字 和 字母 之 间 存在 空格 。 这 三 点 全 都 完成 之 后 ， 程 序 就 能 够 接收 “98.6*f 的 
输入 。 


我 们 已 经 知道 ， 添 加 和 (\. [0-9] *) ?4 就 能 够 处 理 浮 点 数 : 

if ($input =~ m/^([-+]?[0-9]+(\.[0-9]*)?)([CF])$/) 
请 注意 ， 它 添加 在 第 一 个 括号 内 部 ， 因 为 我 们 用 第 一 组 括号 内 的 子 表达 式 来 捕获 温度 的 值 ， 
我 们 当然 希望 它 能 够 包含 小 数 部 分 。 不 过 ， 增 加 了 这 组 括号 之 后 ， 即 使 它 只 是 用 来 分 组 问 


号 限定 的 对 象 ， 也 会 影响 到 引用 捕获 文本 的 变量 。 因 为 这 组 括号 的 开 括号 在 整个 表达 式 中 
排 在 第 二 位 (从 左 向 右 数 )， 所 以 它 匹配 的 文本 存 和 人 $2 ( 见 图 2-3). 





保存 于 $1 
保存 于 $2 保存 于 $3 
$input =~ m/^ (BN Je (\. (0-9) *)2) (IOF) $/ 
第 1 个 开 括号 第 个 开 括号 第 3 个 开 括号 
图 2-3: REHES 
i 
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2-3 说 明了 括号 的 幅 套 关系 。 在 '[cF] ,之 前 添加 一 组 括号 并 不 会 直接 影响 整个 正则 表达 式 
的 意义 ， 但 是 会 产生 间接 的 影响 ， 因 为 现在 '[cF] ,所 在 的 括号 排 在 第 3 位 。 这 也 意味 着 我 
们 需要 把 $type 的 赋值 从 $2 改 为 $3 (如 果 不 希 望 这 么 做 ， 可 以 参考 下 一 页 的 补充 内 容 )。 


接 下 来 ， 我 们 要 处 理 数 字 和 字母 之 间 可 能 出 现 的 空格 。 我 们 知道 ， 正 则 表达 式 中 的 空格 字 
符 正好 对 应 匹配 文本 中 的 空格 字符 , 所 以 **, 能 够 匹配 任意 数目 的 空格 (但 并 不 是 必须 出 现 
空格 ): 


if ($input =~ m/*({-+]?[0-9]+(\.[0-9]*)?), *([CF])$/) 


但 这 样 还 不 够 灵活 ， 而 我 们 希望 的 是 开发 一 个 能 够 实际 应 用 的 程序 ， 所 以 必须 容许 其 他 的 
空白 字符 (whitespace)。 例 如 常见 的 制 表 符 (tabs)。 但 是 Te 并 不 能 匹配 空格 ， 所 以 我 们 
需要 一 个 字符 组 来 匹配 两 者 A) +. 


请 把 上 面 这 个 子 表达 式 与 (** 1 国 *) ,进行 对 比 ， 你 能 发 现 这 其 中 的 巨大 差异 吗 ? 令 请 翻 到 下 
一 页 查看 答案 。 


本 书 中 空格 字符 和 制 表 符 都 很 常见 ， 因 为 我 使 用 ': 和 国 来 表示 它们 。 不 幸 的 是 ， 在 屏幕 上 却 
不 是 如 此 。 如 果 你 见 到 [ ]*， 在 没有 实际 测试 过 以 前 ， 只 能 猜测 这 是 空格 符 还 是 制 表 符 。 
为 了 方便 使 用 , Perl 提供 了 \t, 这 个 元 字符 。 它 能 够 匹配 制 表 符 一 一 相 比 真正 的 制 表 符 , E 
的 好 处 就 在 于 看 得 更 清楚 ， 所 以 我 会 在 正则 表达 式 中 采用 这 个 元 字符 。 于 是 “[' 国 ] eR 


Et] *jo 


Perl 还 提供 了 一 些 简便 的 元 字符 , 例如 \n (表示 换行 符 ), ^f (ASCH 的 进 纸 符 formfeed) , 
和 “、b, ( 退 格 符 )。 不 过 ,确切 地 说 ,\bi 在 某 些 情况 下 是 退 格 符 ， 有 些 情况 下 又 表示 单词 分 
界 符 。 它 怎么 能 身 兼 数 职 呢 ? 下 一 节 我 们 会 看 到 。 


一 点 是 外话 一 一 数量 丰富 的 元 字符 


在 前 面 的 例子 里 我 们 见 到 了 \n， 但 是 \n 都 出 现在 字符 串 而 不 是 正则 表达 式 中 。 就 像 多 数 语 
言 一 样 ，Perl 的 字符 串 也 有 自己 的 元 字符 ,它们 完全 不 同 于 正则 表达 式 元 字符 。 新 程序 员 常 
犯 的 错误 就 是 混 清 了 这 两 个 概念 (VB.NET 是 个 例外 , 因为 其 中 字符 串 的 元 字符 少 得 可 怜 ) 。 
字符 串 的 元 字符 中 有 一 些 跟 正则 表达 式 中 对 应 的 元 字符 一 模 一 样 。 你 可 以 在 字符 串 中 用 \t 
加 入 制 表 符 ， 也 可 以 在 正则 表达 式 中 用 元 字符 \t; 来 匹配 制 表 符 。 
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非 捕获 型 括号 (?:…) ， 


在 图 2-3 中 , 我 们 用 括号 包围 "(\.[0-9]*)?1 来 正确 分 组 , 所 以 我 们 能 够 用 一 个 问号 正 
确 地 作用 于 整个 仆 . [0-9]*j， 把 它们 作为 可 选项 部 分 。 这 样 的 副作用 就 是 这 个 括号 内 
的 子 表 达 式 捕获 的 文本 保存 到 S2 中 ， 而 我 们 并 不 会 使 用 S2。 如 果 有 这 样 一 种 括号 ， 它 
只 能 用 于 分 组 ， 而 不 会 影响 文本 的 捕获 和 变量 的 保存 ， 问 题 就 好 办 多 了 。 
Perl 以 及 近期 出 现 的 其 他 正则 表达 式 流派 提 供 了 这 个 功能 。'(…)) 用 来 分 组 和 捕获 ， 而 
1(?:…)1 表 示 只 分 组 不 扩散 。 使 用 这 个 表示 法 ,“ 开 括号 ”是 3 个 字母 构成 的 序列 (?:， 
这 看 起 来 很 古怪 。 这 里 的 “?” 和 表示 “可 选项 ”的 ?1 元 字符 没有 任何 联系 (可 以 翻 
到 第 90 页 了 解 这 个 古怪 的 表示 法 的 来 历 ) 。 
所 以 ， 整 个 表达 式 变 成 : 

if ($input =~ m/*([-4+]?[0-9]+ (?:\.[0-9]*)?) ([CF])$/) 


现在 ,即使 '[CF]1 两 端的 括号 的 确 是 排 在 第 三 位 , 它 匹 配 的 文本 也 会 保存 到 $2 P, A 
为 “(? :…)) 不 会 影响 捕获 计数 。 


这 样 做 的 好 处 有 两 点 。 第 一 是 避免 了 不 必要 的 捕获 操作 ， 提 高 了 匹配 效率 (我 们 会 在 
第 6 章 详细 讨论 效率 问题 ) 。 另 一 个 好 处 是 ,总 的 来 说 ,根据 情况 选择 合适 的 括号 能 馆 
让 程序 更 清晰 ， 看 代码 的 人 不 会 被 括号 的 具体 细节 所 困扰 。 


另 一 方面 ，(?:…) 1 表示 法 确实 不 够 美 现 ， 或 者 说 它 会 增加 整个 表达 式 的 阅读 难度 。 它 
带 来 的 好 处 能 够 抵消 这 些 问 题 吗 ? 我 个 人 喜欢 根据 需要 选择 合适 的 括号 ， 但 是 在 本 例 
中 ， 或 许 不 值得 这 样 麻烦 。 如 果 匹 配 只 需要 进行 一 次 (而 不 需要 在 柱 环 中 多 次 匹配 ) ， 
效率 并 不 重要 。 


在 本 章 中 ,我 全 部 采用 (…)1， 即 使 不 需要 捕获 文本 时 也 是 如 此 ， 因 为 这 样 看 起 来 更 清 
#. 





这 种 相似 性 无 疑 方便 了 使 用 ， 但 是 我 必须 强调 区 分 这 两 种 元 字符 的 重要 性 。 对 于 \t 这 样 简 
单 的 情况 来 说 或 许 并 不 重要 ， 但 对 于 我 们 将 要 看 到 的 各 种 不 同 的 语言 和 工具 来 说 ， 知 道 在 
什么 情况 下 应 该 使 用 什么 元 字符 是 极其 重要 的 。 


iti 
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测验 答案 


+ 44 页 问题 的 答案 

r CERE 和 (-* fale) 的 异同 

‘(++ fle), EH RCR, CHRP LMREFSRA (也 可 以 没有 ) 以 及 若干 
HAH (也 可 以 没有 )， 不 过 并 不 容许 制 表 符 和 空格 符 的 溪 会 体 。 

WA, LA *1 能 够 匹配 任意 多 个 "网 。 对 于 字符 事 “ 国 … , 它 可 以 匹配 k, 第 一 次 是 
HAH, 后 两 次 是 空格 符 。 

AKL CHS CORD AFH, 尽管 因 为 第 4 章 将 会 解释 其 原因 ， 字 待 组 的 
效率 通常 还 是 会 高 一 点 。 





我 们 已 经 见 过 不 同 的 字符 组 之 间 的 冲突 。 在 第 1 章 , 使 用 egrep 时 ， 我 们 把 正则 表达 式 包含 
在 单 引号 中 。 整个 egrep 命令 行 写 在 command-shell 提示 符 , shell 能 够 认 出 它 自己 的 元 字符 。 
例如 ， 对 shell 来 说 ， 空 格 符 就 是 一 个 元 字符 ， 它 用 来 分 隔 命令 和 参数 ， 或 者 参数 与 参数 。 
在 许多 shell H, 单 引 号 是 元 字符 , 单 引 号 内 的 字符 串 中 的 字符 不 需要 被 当 作 元 字符 处 理 (DOS 
使 用 双 引 号 )。 


在 shell 中 使 用 引号 容许 我 们 在 正则 表达 式 中 使 用 空格 。 否 则 ，shell 会 把 空格 认 作 参 数 之 间 
的 分 隔 符 , 而 不 是 把 整个 正则 表达 式 传递 给 egrep。 许多 shell 能 够 识别 的 元 字符 包括 $、*、? 
之 类 一 一 我 们 在 正则 表达 式 中 也 会 用 到 这 些 元 字符 。 


目前 ， 所 有 关于 shell 的 元 字符 和 Perl 字符 捉 的 元 字符 的 讨论 都 还 与 正则 表达 式 本 身 没有 任 
何 关联 ， 但 它们 会 影响 到 现实 环境 中 正则 表达 式 的 使 用 。 随 着 阅读 的 深入 ， 我 们 会 见 到 许 
多 (有 时 候 还 很 复杂 ) 情况 , 我 们 需要 同时 在 不 同 层级 上 使 用 元 字符 交互 (multiple levels of 


simultaneously interacting metacharacters ) 。 


那么 \b 的 情况 呢 ? 这 是 一 个 正则 表达 式 的 问题 : 在 Perl 的 正则 表达 式 中 , \b, 通 常 是 匹配 
一 个 单词 分 界 符 的 ， 但 是 在 字符 组 中 ， 它 匹配 一 个 退 格 符 。 单 词 分 界 符 作为 字符 组 的 一 部 
分 则 没有 任何 意义 ， 所 以 Perl 完全 可 以 用 它 来 匹配 其 他 的 字符 。 第 1 章 曾 提醒 我 们 ， 字 符 
组 “ 子 语言 ”的 规范 不 同 于 正则 表达 式 主体 ， 这 条 规则 也 适用 于 Perl (包括 任何 其 他 流派 的 
正则 表达 式 )。 
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用 \s 匹配 所 有 “空白 


讨论 空白 的 问题 时 ， 我 们 最 后 使 用 的 是 '["\t]* ;。 这 样 做 没 问 题 ， 但 许多 流派 的 正则 表达 
式 提供 了 一 种 方便 的 办 法 :\sl。\s; 看 起 来 类 似 \ts, \t, 代 表 制 表 符 , 而 "s; 则 能 表示 所 有 
表示 “空白 字符 (whitespace character)” 的 字符 组 ， 其 中 包括 空格 符 、 制 表 符 、 换 行 符 和 回 
车 符 。 在 我 们 的 例子 中 ， 换 行 符 和 回 车 符 并 不 需要 特别 考虑 ， 但 是 、\s*; 显然 比 '["\t]* 要 
简洁 。 而 且 不 久 你 就 会 习惯 这 种 表示 法 ， 在 复杂 的 表达 式 中 ，\s* 更 加 易于 理解 。 


现在 我 们 的 程序 变 成 


$input =~ m/*([-+)?(0-9]+(\.[0-9)*)?)\s*((CF])$/ 


最 后 ， 我 们 还 必须 能 够 处 理 表示 温度 制式 的 小 写字 母 。 简 单 的 办 法 是 直接 把 小 写字 母 添 加 
到 字符 组 中 ，[cFcf],。 不 过 ， 我 更 愿意 使 用 另 一 种 办 法 : 


$input =~ m/*((-+]?[0-9)+(\.[0-9)*)?)\s*({CF]) S44, 


添加 的 这 个 i 称 作 “修饰 符 (modifier)”, FO EME m/…/ 结 构 之 后 ， 告 诉 Perl 进行 不 区 分 
大 小 写 的 匹配 。 修 饰 符 其 实 不 是 正则 表达 式 的 一 部 分 ,而 是 m/…/ 结 构 的 一 部 分 ， 这 个 结构 
告诉 Perl 使 用 者 的 意图 (应 用 一 个 正则 表达 式 )， 以 及 采用 的 正则 表达 式 (在 斜 线 之 间 的 部 
分 )。 我 们 曾 看 到 过 这 种 功能 ， 即 egrep 的 -i BR (715), 


时 时 刻 刻 说 “i 修饰 符 (the i modifier)” 有 点 麻烦 ， 所 以 我 们 通常 说 “/i”， 即 使 真正 的 写 
法 并 不 是 “/i”。/i 只 是 在 Perl 中 指定 修饰 符 的 办 法 之 一 一 一 在 下 一 章 ， 我 们 会 看 到 其 他 
的 办 法 ， 以 及 其 他 语言 实现 此 功能 的 写法 。 在 本 章 后 面 的 部 分 ， 我 们 还 会 看 到 其 他 的 修饰 
符 , 例如 /g (表示 “全 局 匹配 (global match)”) 以 及 /x (表示 “宽松 排列 的 表达 式 (free-form 


expressions)” ) , 


现在 ， 我 们 已 经 做 了 不 少 修改 了， 来 看 看 新 的 程序 ; 


$ perl -w convert 

Enter a temperature (e.g., 32F, 100C): 
32 f 

0.00 C is 32.00 F 

% perl -w convert 

Enter a temperature (e.g., 32F, 100C): 
50 c 

10.00 C is 50.00 F 


哎呀 1 你 是 否 注意 到 了 ，, 第 二 次 运行 时 我 们 输入 的 是 摄氏 50 RE, 结果 被 认 成 了 华氏 50 BE? 
看 看 程序 的 逻辑 ， 你 找 出 问题 了 吗 ? 


it 
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再 来 看 程序 的 片段 : 
if ($input =~ m/*[-+])?[0-9)+(\.[0-9])*) ?})\s*([CF])$/i) 


$type = $3; # 把 数据 保存 到 以 命名 的 变量 ， 让 程序 更 易 懂 
if ($type eq “C”) { # 'eq' 测试 两 个 字 村 事 是 否 相 等 


sorses 


scene 


虽然 我 们 的 正则 表达 式 能 够 接受 小 写 的 f, 程序 的 其 他 部 分 却 没 有 相应 的 修改 。 在 这 个 程序 
里 ， 只 有 $type 是 “c” 的 时 候 ， 才 作为 摄氏 度 处 理 。 因 为 程序 同样 可 以 接受 小 写 的 =， 我 
们 需要 修改 $type 的 判断 : 


if ($type eq “C” or $type eq “c") { 


实际 上 ， 因 为 本 书 是 关于 正则 表达 式 的 ， 我 或 许 这 样 做 : 


if (Stype =~ m/c/i) { 


现在 ， 大 小 写 的 情况 都 能 应 付 了 。 最 终 的 程序 如 下 所 示 。 这 个 例子 告诉 我 们 ， 正 则 表达 式 
的 使 用 方式 ， 可 能 会 影响 到 程序 的 其 他 部 分 。 


示例 2-2: 温度 转换 程序 一 一 最 终 版 本 


print “Enter a temperature (e.g., 32F, 100C):\n"; 
$input = <STDIN>; # 接收 用 户 输入 的 一 行文 本 
chomp ($input) ; # 去 掉 Sinput RA MMF 
if ($input =~ m/*([-+]?[0-9])+(\.[0-9]*)?)\s*([CF])$/i) 
{ 
# 如 果 运 行 和 到 此 ， 则 已 经 匹配 ，51 保存 数值 ，$3 保存 C 或 者 下 
$InputNum = $1; # 把 数据 保存 到 已 命名 的 变量 
$type = $3; # ,保证 程序 的 可 读 性 
if ($type =~ m/c/i) { $ Is it. *c* or "C"? 
# 输 入 的 是 摄 民 温度 ， 计 算 华氏 温度 
$celsius = $InputNum; 
Sfahrenheit = ($celsius * 9 / 5) + 32; 
} else { 
# 如 果 不 是 "C" ， 则 必定 是 "FE"， 所 以 计算 摄氏 温度 
$fahrenheit = $InputNum; 
Scelsius = ($fahrenheit - 32) * 5 / 9; 


} 
# 现在 两 个 值 者 月 了 ， 输 出 结果 : 


printf “%.2f C is %.2f F\n", $celsius, $fahrenheit; 
} else { 


# 开始 的 表达 式 无 法 匹配 ， 发 出 警报 
print “Expecting a number followed by \"C\" or \"F\",\n"; 
print “so I don't understand \"Sinput\".\n‘%; 


www.TopSage.com 


使 用 正则 表达 式 匹配 文本 49 


暂停 片刻 


Intermission 


尽管 本 章 的 大 部 分 篇 幅 是 关于 熟悉 Perl 的 ， 但 也 遇 到 了 许多 新 的 关于 正则 表达 式 的 知识 。 


一 一 


. 许多 工具 都 有 自己 的 正则 表达 式 流派 。Perl 和 egrep 可 能 属于 同一 个 流派 ， 但 是 Perl 的 
正则 表达 式 中 的 元 字符 更 多 。 许 多 其 他 的 语言 ， 类 似 Java, Python, NET 和 TCL， 它 们 
的 流派 类 似 Perl. 


nN 


. Perl 用 $variable =~ m/regex/ 来 判断 一 个 正则 表达 式 是 否 能 匹配 某 个 字符 串 。m 表示 “ 匹 
配 (match)”， 而 斜 线 用 来 标注 正则 表达 式 的 边界 (它们 本 身 不 属于 正则 表达 式 )。 整 个 
测试 语句 作为 一 个 单元 ， 返 回 true 或 者 false 值 。 


3. 元 字符 一 一 具有 特殊 意义 的 字符 一 一 的 定义 在 正则 表达 式 中 并 不 是 统一 的 。 之 前 在 关于 
shell 和 双 引 号 引用 的 字符 串 的 例子 中 我 们 讲 过 ， 元 字符 的 含义 取决 于 具体 的 情况 。 了 解 
具体 情况 (shell、 正 则 表达 式 、 字 符 串 )， 其 中 的 元 字符 及 其 作用 ， 对 学 习 和 使 用 Perl, 
PHP, Java, Tcl, GNU Emacs, awk, Python 或 其 他 高 级 语言 是 非常 重要 的 (当然, 在 
正则 表达 式 内 部 ， 字 符 组 有 自己 的 “ 子 语言 "， 其 中 的 元 字符 是 不 同 的 )。 


4. Perl 和 其 他 流派 的 正则 表达 式 提供 了 许多 有 用 的 简 记 法 (shorthands) ; 


\t HAH 

in mt 

\r BAH , 

\s 任何 “空白 ”字符 (例如 空格 桂 、 制 表 竺 、 进 纸 竺 等 ) 

\S 除 八 sj 之 外 的 任何 字符 

\w ‘fa-zA-Z0-9]) (在 "\w+) 中 很 有 用 ， 可 以 用 来 匹配 一 个 单词 ) 
\W 除 "\wj 之 外 的 任何 字符 ， 也 就 是 '[^a-zA-20-9]] 

\d 5 [0-9],， 即 数字 

\D RhA 外 的 任何 字符 ， 即 [^0-9]， 


， /修饰 符 表 示 此 测试 不 区 分 大 小 写 。 尽 管 写 法 是 “/i”， 其 实 “i” 只 是 跟 在 表示 结尾 的 
斜 线 之 后 。 


wr 


6.“(?:…) ,这 个 麻烦 的 写法 可 以 用 来 分 组 文本 ， 但 并 不 捕获 。 


. 匹配 成 功 之 后 ，Perl 可 以 用 $1、$2、$3 之 类 的 变量 来 保存 相对 应 的 “(…) ,括号 内 的 子 表 
达 式 匹配 的 文本 。 使 用 这 些 变量 ， 我 们 能 够 用 正则 表达 式 从 字符 串 中 提取 信息 (其 他 的 
语言 所 使 用 的 方式 有 所 不 同 ， 我 们 会 在 下 一 章 看 到 例子 )。 


~ 
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子 表 达 式 的 编号 按照 开 括 号 的 出 现 先 后 排序 ， 从 1 Fi TREATIES, Hán 
(washington(*DCc)?)]。 如 果 只 是 希望 分 组 ， 也 可 以 使 用 "(…)，， 但 副作用 是 ， 它 们 捕 
获 的 文本 仍然 会 保存 到 特殊 的 变量 中 。 


使 用 正则 表达 式 修改 文本 


Modifying Text with Regular Expressions 


到 现在 ， 我 们 遇 到 的 例子 都 只 是 从 字符 串 中 “提取 ”信息 。 现 在 我 们 来 看 Pel 和 其 他 许多 
语言 提供 的 一 个 正则 表达 式 特性 : 替换 (substitution， 也 可 以 叫 “ 查 找 和 和 替换 (search and 


replace)” )。 


我 们 已 经 看 到 ，$var =- m/regex/ 尝 试用 正则 表达 式 来 匹配 保存 在 变量 中 的 文本 ， 并 返回 
表示 能 否 匹配 的 布尔 值 。 与 之 类 似 的 结构 $var =~ s/regex/replacement/ 则 更 进一步 如 果 正 
则 表达 式 能 够 匹配 $var 中 的 某 段 文本 , 则 将 这 段 匹配 的 文本 替换 为 replacement, 其 中 regex 
与 之 前 m/…/ 的 用 法 一 样 ， 而 replacement (位 于 第 二 个 和 第 三 个 斜 线 之 间 ) 则 是 作为 双 引 号 
内 的 字符 串 。 这 就 是 说 ， 在 其 中 可 以 使 用 变量 一 一 例如 $1、$2 一 一 来 引用 之 前 匹配 的 具体 
文本 。 


所 以 ,使 用 $var =~ s/…/…/ 可 以 改变 Svar 中 的 文本 (如果 没 有 找到 匹配 的 文本 ， 也 就 不 
会 有 替换 发 生 )。 例 如 ， 如 果 S$var 包括 Jeff*Friedl, 运行 ; 

Svar =~ s/Jeff/Jeffrey/; | 
Svar 的 值 就 变 成 Jeftfery'Friedl。 如 果 再 运行 一 次 ， 就 得 到 Jeffreyrey*Friedl。 要 训 
免 这 种 情况 ， 也 许 我 们 需要 添加 表示 单词 分 界 的 元 字符 。 在 第 1 章 我 们 提 到 过 ， 某 些 版 本 
的 egrep 支持 <!/ 和 >, 作为 “单词 起 始 ” 和 “单词 结束 ”的 元 字符 。Perl 提供 了 统一 的 元 
字符 "bj 来 代表 这 两 者 : 

Svar =~ s/\bJeff\b/Jeffrey/; 
这 里 有 个 小 测验 :与 m/…/ 一 样 ，s/…/…/ 也 可 以 使 用 修饰 符 ， 例 如 第 47 页 介绍 的 /i (将 
这 个 修饰 符 放 在 replacement 之 后 )。 那 么 ， 这 个 表达 式 : 


$var =~ s/\bJeff\b/Jeff/i; 


的 功能 是 什么 呢 ? 令 请 翻 到 下 页 查看 答案 。 


AF: 公函 生成 程序 


Example: Form Letter 


下 面 这 个 有 趣 的 例子 展示 了 文本 替换 的 用 途 。 设 想 有 一 个 公函 系统 ， 它 包含 很 多 公函 模板 ， 
其 中 有 一 些 标 记 ， 对 每 一 封 具体 的 公函 来 说 ， 标 记 部 分 的 值 都 有 所 不 同 。 
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这 里 有 一 个 例子 : 


Dear =FIRST=, 

You have been chosen to win a brand new =TRINKET=! Free! 
Could you use another =TRINKET= in the =FAMILY= household? 
Yes =SUCKER=, I bet you could! Just respond Dy... 


对 特定 的 接收 和 信 ， 变 量 的 值 分 别 为 : 


given = “Tom”; 
family = “Cruise”; 
Swunderprize = "100% genuine faux diamond’; 


准备 好 之 后 ， 就 可 以 用 下 面 的 语句 “填写 模板 ”: 


$letter =~ s/=FIRST=/Sgiven/g; 

$letter =~ s/=FAMILY=/S$family/g; 

$letter =~ s/=SUCKER=/S$given $family/g; 

Sletter =~ s/=TRINKET=/fabulous $wunderprize/g; 
其 中 的 每 个 正则 表达 式 首先 搜索 简单 标记 ， 找 到 之 后 用 指定 的 文本 替换 它 。 用 于 替换 的 文 
本 其 实 是 Pel 中 的 字符 串 ， 所 以 它们 能 够 引用 变量 ， 就 像 上 面 的 程序 那样 。 例 如 ， 
s/=TRINKET=/ fabulous $wunderprize/g 中 下 男 线 部 分 在 程序 运行 时 的 值 就 是 fabulous 
$wunderprize”。 如 果 只 需要 生成 一 份 公 沙 ， 完 全 可 以 不 用 变量 替换 ， 直 接 照 需要 的 样子 
生成 就 是 。 但 是 ， 使 用 变量 替换 能 够 实现 自动 化 的 操作 ， 例 如 可 以 从 一 个 清单 读 人 信息。 


我 们 还 没 介 绍 过 /g“ 全 局 替换 ”(8global replacement) 的 修饰 符 。 它 告诉 s/…/…/ 在 第 一 次 
替换 完成 之 后 继续 搜索 更 多 的 匹配 文本 ， 进 行 更 多 的 替换 。 如 果 需 要 检查 的 字符 申 包 含 多 
行 需要 替换 的 文本 ， 每 条 替换 规则 都 对 所 有 行 生 效 ， 我 们 就 必须 使 用 /9。 
结果 是 可 以 预见 的 ， 不 过 相当 有 趣 ， 

Dear Tom, 

You have been chosen to win a brand new fabulous 100% genuine faux diamond! 


Free! Could you use another fabulous 100% genuine faux diamond in the Cruise 
household? Yes Tom Cruise, I bet you could! Just respond by... . 


举例 : 修整 股票 价格 


Example: Prettifying a Stock Price 


另 一 个 例子 是 ， 我 在 使 用 Pel 编写 的 股票 价格 软件 时 遇 到 的 问题 。 我 得 到 的 价格 看 起 来 是 
这 样 “9.0500000037272”。 这 里 的 价格 显然 应 该 是 9.05, 但 是 因为 计算 机 内 部 表示 浮 点 
的 原理 , Pel 有 时 会 以 没什么 用 的 格式 输出 这 样 的 结果 。 我 们 可 以 像 温 度 转换 例子 中 的 那样 
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测验 答案 


4 50 页 的 测验 的 答案 

$var =~ 8/\bJjeff\b/Jeff/i 实现 了 什么 功能 ? 

这 个 问题 可 能 让 你 困 赤 。 如 果 前 面 的 正则 表达 式 用 改 bJEFF\b) 或 者 bjeff\b 或 者 是 
"\bjEfF\bj 可 能 看 得 更 清楚 。 因 为 /i 的 存在 ,搜索 “Jeff ”这 个 词 是 不 区 分 大 小 写 的 。 
而 所 有 匹配 的 字符 事 都 会 被 替换 为 “Jeff'， 第 一 个 字母 是 大 写 ， 其 他 为 小 写 (/i 对 
replacement 的 文本 没有 有 影响， 不 过 第 7 章 讨 论 的 某 些 修饰 符 不 是 如 此 )。 

结果 就 是 ,“jeff” 这 个 单词 ， 无 论 大 小 写 的 情况 如 何 ， 都 会 被 替换 为 “Jeff ”。 





用 printf 来 保证 只 输出 两 位 小 数 , 但 是 此 处 并 不 适用 。 当 时 ,股价 仍然 是 以 分 数 的 形式 给 
出 的 ， 如 果菜 个 价格 以 1/8 结尾 ， 则 应 该 输出 3 位 小 数 《“ .125”)， 而 不 是 两 位 。 


我 把 自己 的 要 求 归结 为 : 通常 是 保留 小 数 点 后 两 位 数字 ， 如 果 第 三 位 不 为 零 ， 也 需要 保留 ， 
去 掉 其 他 的 数字 ,结果 就 是 12.3750000000392 或 者 12.375 会 被 修正 为 “12.375”, 而 37.500 
被 修正 为 “37.50”。 这 就 是 我 要 的 结果 。 


那么 ， 我 们 该 如 何 做 呢 ?$price 变量 包含 了 需要 修正 字符 串 ， 让 我 们 用 这 个 表达 式 : 


$price =~ s/({\.\d\d[1-9]?)\d*/$1/ 
(提示 : 49 页 介绍 了 di 这 个 元 字符 ， 它 用 来 匹配 一 个 数字 字符 。) 


最 开始 的 .匹配 小 数 点 。 接 下 来 的 \a\d 匹配 开头 的 两 位 数字 。[1-9] ?匹配 可 能 跟 在 后 
面 的 非 零 数字 。 到 这 里 ， 任 何 匹 配 的 文本 都 是 我 们 希望 保留 的 ， 所 以 我 们 用 括号 把 它 保存 
到 $1 中 。 然 后 将 $1 放 入 replacement 字符 串 中 。 如 果 能 够 匹配 的 文本 就 是 $1， 我 们 就 用 $1 
替换 $1 一 -这样 做 没什么 意义 。 但 如 果 在 $1 的 括号 之 外 还 有 能 够 匹配 的 字符 ， 因 为 它们 没 
有 出 现在 replacement 字符 串 中 ， 所 以 会 被 删除 。 也 就 是 说 ,“ 被 删除 的 ”文本 是 其 他 多 余 的 
数字 ， 也 就 是 正则 表达 式 末 尾 “\a*; 匹 配 的 字符 。 


请 记 住 这 个 例子 ， 在 第 4 章 我 们 会 学 习 匹 配 过 程 背后 的 重要 原理 ， 那 时 候 还 会 遇 到 这 个 例 
子 。 研 究 它 可 以 学 到 非常 有 价值 的 知识 。 





iti 
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自动 的 编辑 操作 


Automated Editing 


写作 本 章 时 ， 我 遇 到 了 另 一 个 简单 但 真实 存在 的 例子 。 当 时 我 需要 登录 到 太平 洋 对 岸 的 一 
台 机 器 上 ， 但 是 网 速 非常 慢 。 按 下 回 车 得 等 一 分 多 钟 才 能 见 到 反应 ， 而 我 只 需要 对 某 个 文 
件 进行 一 些小 的 改动 , 运行 一 个 重要 的 程序 。 实 际 上 , 我 要 做 的 只 是 将 出 现 的 所 有 sysread 
改 为 reada。 改 动 的 次 数 并 不 多 ， 但 因为 网 络 太 慢 ， 使 用 全 屏 编 辑 器 显然 是 不 可 能 的 。 


下 面 是 我 的 办 法 : 
% perl -p -i -e 's/sysread/read/g' file 


这 条 命令 中 的 Perl 程序 是 s/sysread/read/g (是 的 ， 这 就 是 一 个 完整 的 Perl 程序 一 一 参 
数 -e 表示 整个 程序 接 在 命令 的 后 面 )。 参 数 -p 表示 对 目标 文件 的 每 一 行进 行 查找 和 替换 ， 
而 -i 表示 将 替换 的 结果 写 回 到 文件 。 


请 注意 ， 这 里 没有 明确 写 出 查找 和 替换 的 目标 字符 串 〈 就 是 说 ， 没 有 $var =~…)， 因 为 -p 
参数 就 表示 对 目标 文件 的 每 行文 本 应 用 这 段 程序 。 同 样 ， 因 为 我 用 了 /9 这 个 修饰 符 ， 就 可 
以 保证 在 一 行文 本 中 可 以 进行 多 次 替换 。 

尽管 在 这 里 我 只 是 对 一 个 文件 进行 操作 ， 但 也 很 容易 在 命令 行 中 列 出 多 个 文件 ， 而 Perl 会 
把 替换 命令 应 用 到 每 个 文件 的 每 一 行文 字 。 这 样 ， 只 需要 一 条 简单 的 命令 ， 我 就 能 够 编辑 


大 量 的 文件 。 这 样 简单 的 编辑 方式 是 Per 独 有 的 ， 但 这 个 例子 告诉 我 们 ， 即 使 执行 的 是 简 
单 的 任务 ， 作 为 脚本 语言 一 部 分 的 正则 表达 式 的 功能 仍然 非常 强大 。 


处 理 邮件 的 小 工具 


A Small Mail Utility 


来 看 另 一 个 小 工具 的 例子 。 一 个 文件 中 保存 着 E-mail 信息 ， 我 们 需要 生成 一 个 用 于 回复 的 
文件 。 在 准备 过 程 中 ， 我 们 需要 引用 原始 的 信息 ， 这 样 就 能 很 容易 地 把 回复 插入 各 个 部 分 。 
在 生成 回复 邮件 的 header 时 ， 我 们 还 需要 删除 原始 信息 邮件 的 header 中 不 需要 的 行 。 


下 一 页 的 补充 内 容 是 一 个 邮件 文件 的 范本 。header 包含 了 我 们 关心 的 字段 : 日期、 主题 等 
一 一 但 也 包括 了 我 们 不 关注 的 字段 , 这 些 字段 需要 删除 。 如 果 我 们 的 脚本 程序 叫做 mkreply， 
而 原始 的 信息 保留 在 king.in 中 ， 我 们 会 用 下 面 的 命令 来 生成 回复 模板 : 


% perl -w mkreply king.in > king.out 


(-w 它 用 来 打开 Perl 的 额外 警告 功能 ， 一 38) 
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E-mail Message 范本 


From elvis Thu Feb 29 11:15 2007 

Received: from elvis@localhost by tabloid.org (8.11.3) id KA8CMY 
Received: from tabloid.org by gateway.net (8.12.5/2) id N8XBK 
To: jfriedl@regex.info (Jeffrey Friedl) 

From: elvis@tabloid.org (The King) 

Date: Thu, Feb 29 2007 11:15 

Message-Id: <2007022939939.KA8CMY@tabloid.org> 

Subject: Be seein' ya around 

Reply-To: elvis@hh.tabloid.org 

X-Mailer: Madam Zelda's Psychic Orb [version 3.7 PL92) 


Sorry I haven't been around lately. A few years back I checked into 
that ole heartbreak hotel in the sky, ifyaknowwhatImean. 
The Duke says “hi”. 

Elvis 





我 们 希望 程序 的 输出 结果 king. out 包括 下 面 的 内 容 : 


To: elvis@hh.tabloid.org (The King) 
From: jfriedl@regex.info (Jeffrey Friedl) 
Subject: Re: Be seein' ya around 


On Thu, Feb 29 2007 11:15 The King wrote: 

l> Sorry I haven't been around lately. A few years back I checked 
l> into that ole heartbreak hotel in the sky, ifyaknowwhatImean. 
|> The Duke says “hi”. 

|> Elvis 


现在 我 们 来 分 析 。 为 了 生成 新 的 header， 我 们 需要 知道 目标 地 址 ( 即 本 例 中 的 elvisehh. 
tabloid.org， 来自 原始 信息 中 的 Reply-To 字段 )， 收 件 人 的 姓名 (The King)， 我 们 自 
己 的 地 址 和 姓名 ， 以 及 主题 。 另 外 ， 为 了 生成 邮件 正文 的 导入 部 分 (introductory line)， 我 
们 还 需要 知道 原始 邮件 的 日 期 。 


这 些 工 作 可 以 分 为 下 面 3 F: 


1. 从 原始 邮件 的 header 中 提取 信息 ， 

2. 生成 回复 邮件 header， 

3. 打印 原始 邮件 信息 ， 行 首 用 “1>” MH. 

这 样 考 虑 有 点 超前 了 一 一 在 设 有 决定 程序 如 何 读 人 数据 之 前 ， 就 关心 起 如 何 处 理 数据 了 。 
幸运 的 是 ,Perl 提供 了 神奇 的 “<> ”操作 符 。 在 应 用 到 变量 $variable 时 , 使 用 “$variable 


= <>"， 这 个 有 趣 的 结构 能 够 每 次 读 人 一 行 数据 。 输 入 的 数据 来 自命 令 行 中 Peri 脚本 之 后 列 
出 的 文件 名 〈 例 如 上 面 例子 中 的 king.in)。 


请 不 要 混 请 操作 符 <> 与 Shel 的 重 定向 符号 “> filename” RHE Perl 的 大 于 /小 于 号 。Perl 
中 的 <> 相 当 于 其 他 语言 中 的 getline() MR. 


idi 
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读 和 人 所 有 输入 数据 之 后 ，<> 很 方便 地 返回 未 定义 的 值 (作为 布尔 值 处 理 ) ， 所 以 整个 文件 可 
以 这 样 处 理 
while ($line = <>) { 


ACIS Line... 
} 


我 们 会 用 类 似 的 办 法 来 处 理 邮件 ， 但 是 邮件 本 身 的 性 质 决 定 了 我 们 必须 对 邮件 header 特殊 
处 理 。 第 一 个 空 行 之 前 的 信息 是 header， 之 后 的 则 是 正文 部 分 。 为 了 只 读 和 人 header， 我 们 可 
以 使 用 下 面 这 段 代 码 。 


# 处 理 header 
while ($line = <>) { 
if ($line =~ m/*\s*$/) { 
last; # 停止 while 搞 环 内 的 处 理 ， 跳 出 握 环 
} 
.. .处 理 header 信息 ..， 
} 
. . .处 理 邮件 内 的 其 他 信息 .,. 


sesers 


我 们 用 '“^\s*$, 来 检查 表示 邮件 header 结束 的 空 行 。 这 个 正则 表达 式 检查 的 是 ,当前 的 文本 
行 是 否 有 一 个 行 开头 (其 实 每 一 行 都 有 , 由 脱 字 符 匹 配 ), 然后 跟着 任意 数目 的 空白 字符 ( 尽 
管 我 们 并 不 期 望 有 任何 空白 字符 ) ， 然 后 字符 串 结 束 ( 注 3)。 关 键 词 last 会 跳出 while 循 
环 ， 停 止 处 理 header, 


所 以 ， 在 循环 内 部 ， 在 空 行 检测 之 后 ， 我 们 能 够 按照 自己 的 想法 来 处 理 header 的 每 一 行 。 
在 本 例 中 ， 我 们 希望 提取 信息 ， 例 如 邮件 的 主题 和 时 间 。 


要 提取 主题 ， 我 们 可 以 使 用 一 个 常见 的 技巧 ， 


if ($line z~ m/*Subject: (.*)/i) { 
$subject = $1; 
} 


这 段 代 码 尝试 匹配 一 个 以 “subject :*” 开 头 , 但 不 区 分 subject 大 小 写 的 字符 申 。 如 果 能 
够 匹配 ， 后 面 的 '.*, 匹配 这 一 行 的 其 他 部 分 。 因 为 “.*, 在 括号 中 ， 所 以 之 后 我 们 能 用 $1 来 
访问 邮件 的 主题 。 在 这 个 例子 中 ， 我 们 希望 把 它 保 存 到 变量 $subject 中 。 当 然 ， 如 果 正 则 
表达 式 无 法 匹配 这 个 字符 申 (大 多 数 情 况 下 都 不 能 ) ， 结 果 就 是 if 语句 返回 结果 为 false， 
$subject 变量 没有 变化 。 


注 3: 我 在 这 里 用 的 是 “字符 事 ”(string) 而 不 是 “ 行 ”(line) ， 因 为 虽然 对 本 例 来 说 这 不 是 一 个 
问题 ， 但 正则 表达 式 需要 处 理 的 可 能 是 一 个 包含 多 行文 本 的 字符 事 。 通 常 ， 脱 字条 和 美元 
符 只 匹配 整个 字符 事 的 开头 和 结尾 (在 本 章 后 面 我 们 会 遇 到 一 个 相反 的 例子 )。 无 论 如 何 ， 
此 处 这 种 区 别 并 不 重要 ， 因 为 根据 我 们 的 程序 ， 我们 知道 $line 的 内 容 不 会 多 于 一 行 。 
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关于 . *, 的 警告 


1 .xj 通常 用 来 表示 “一 组 任何 字符 ”(a bunch of anything) ， 因 为 点 号 可 以 匹配 任何 字 
H (在 某 些 工具 中 ， 不 包括 换行 竺 ) ， 而 星 号 表示 可 以 为 任意 数目 ， 但 并 非 必须 。.*i 


可 能 很 有 用 。 

不 过 ， 如 果 把 ' .xj 作为 整个 正则 表达 式 的 一 部 分 ， 而 用 户 又 不 真正 了 解 其 中 的 原理 ， 
就 可 能 陷入 某 些 隐藏 的 “陷阱 ”。 我 们 已 经 看 到 过 一 个 例子 (了 26)， 并 会 在 第 4 章 深 
入 讨论 这 个 话题 的 时 候 见 到 更 多 的 例子 (7164), 





我 们 可 以 用 同样 的 办 法 来 处 理 Date 和 Reply-To 字段 : 


if ($line =~ m/*Date: (.*)/i) { 
Sdate = $1; 


} 
if ($line =~ m/*Reply-To: (.*)/i) { 


Sreply_address = $1; 
} 


From: 所 在 的 行 稍微 麻烦 一 点 。 首 先 , 我 们 需要 找到 以 “From:” 开头 的 行 , 而 不 是 以 “From。 
开头 的 第 一 行 。 我 们 需要 的 是 : 
From: elvis@tabloid.org {The King) 


它 包含 了 邮件 的 发 送 地 址 ， 发 送 者 的 姓名 在 括号 内 ， 我 们 要 提取 的 是 姓名 (译注 1)。 


RMA From: Ase ,来 提取 发 送 地 址 。 你 可 能 猜 到 了 ,\s 匹配 的 是 所 有 的 非 空白 字符 
(749), 所 以 s+, 匹配 第 一 个 空白 之 前 的 文本 (或 者 目标 文本 末尾 之 前 的 所 有 字符 )。 在 
本 例 中 ， 就 是 邮件 的 发 送 地 址 。 匹 配 之 后 ， 我 们 和 希望 匹配 括号 内 的 文字 。 显 然 ， 此 处 也 需 
要 匹配 括号 本 身 。 我 们 用 \(, 和 "\) ;来 匹配 , 转 义 之 后 的 括号 不 再 具有 特殊 的 含义 。 在 括号 
内 , 我 们 希望 匹配 任何 字符 一 一 除了 括号 之 外 的 任何 字符 ,所 以 采用 O. E, FA 
组 的 元 字符 不 同 于 正则 表达 式 的 “普通 ”元 字符 ， 在 字符 组 内 部 ， 括 号 不 再 具有 特殊 含义 ， 
因此 也 不 需要 转 义 。 


综合 起 来 ， 我 们 得 到 : 


From:*(\s+)°\(([~^()]*)\)) 


其 中 的 括号 有 点 多 ， 初 看 起 来 不 太 好 懂 ， 图 2-4 解释 得 更 清楚 : 


译注 1: 一 般 情 况 下 ， 邮 件 应 当 回 复 到 “回复 地 址 "， 即 Reply-To 字段 的 内 容 ， 若 此 字段 不 存 
在 ， 则 回复 到 发 送 的 邮箱 ， 故 此 处 说 需要 提取 的 只 是 发 送 者 的 姓名 。 


L 
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字符 类 内 部 的 字符 ， 括 号 没有 特殊 含义 


保存 到 $1 保存 到 $2 





图 2-4: 该 套 的 括号 ，$1 和 $2 


如 果 图 2-4 的 正则 表达 式 能 够 匹配 ， 我 们 可 以 通过 $2 得 到 发 送 者 的 姓名 ， 从 $1 得 到 可 能 的 
回复 地 址 。 
if ($line =~ m/*From: (\s+) \(([*()]*)\)/i) { 
Sreply_address = $1; 


Sfrom_name = $2; 
} 


并 非 所 有 的 E-mail 信息 都 包含 Reply-To 字段 ， 所 以 我 们 把 $1 暂 定 为 回复 地 址 。 如 果 之 后 
出 现 了 $Reply-To 字段 ， 我 们 会 重 设 $reply_address。 综 合 起 来 就 得 到 : 

while ($line = < >) 

{ 


if ($line =~ m/*\s*$/ ) { # 如 果 存 在 空 行 
last; # 就 立即 结束 while MH 


if ($line =~ m/*Subject: (.*)/i) { 
$subject = $1; 


if ($line =~ m/*Date: (.*)/i) { 
$date = $1; 


if ($line =~ m/*Reply-To: (\s+)/i) { 
Sreply_address = $1; 


if ($line =~ m/*From: (\s+) \(((*()]*)\)/i) { 
S$reply_address = $1; 
$from_name = $2; 
} 
这 段 程序 检查 header 的 每 一 行 ， 如果 某 个 正则 表达 式 能 够 匹配 ， 则 设置 相应 的 变量 。header 
的 许多 行 无 法 由 这 些 正 则 表达 式 匹 配 ， 所 以 会 被 忽略 。 
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while 循环 结束 之 后 ， 我 们 就 能 够 生成 回复 邮件 的 header 了 (Ù 4): 


print “To: $reply_address ($from_name) \n’; 

print “From: jfriedl\@regex.info (Jeffrey Friedl) \n’; 

print “Subject: Re: $subject\n’; 

print “\n* ; # blank line to separate the header from message body. 


请 注意 ， 我 们 在 主题 之 前 加 上 了 Re: ， 表 示 这 是 一 封 回复 邮件 。 最 后 ， 在 header 之 后 ， 我 
们 列 出 原始 邮件 的 内 容 : 


print “On $date $from_name wrote:\n’; 


对 于 其 他 的 输入 信息 〈 也 就 是 原始 邮件 的 正文 部 分 ) ， 我 们 在 每 一 行 之 前 添加 “1>- ”提示 
符 : 
while ($line = < >) { 


print “I> $line’; 
} 


有 意思 的 是 ， 这 段 程序 也 可 以 用 另 一 种 方法 ， 使 用 正则 表达 式 来 加 入 引用 提示 符 : 


$line =~ s/*/|> /;3 

print $line; 
这 条 替换 命令 寻找 “, 在 每 个 字符 申 的 起 始 位 置 匹配 。 这 条 替换 命令 把 字符 串 开 头 那个 “不 
存在 的 字符 ”替换 ”为 “1>" ,其 实 并 设 有 替换 任何 字符 , 只 是 在 字符 串 的 开头 加 入 “1>…。 
在 本 例 中 这 样 做 有 点 滥用 的 嫌疑 了 ， 但 是 我 们 将 在 本 章 中 看 到 类 似 (但 更 有 用 ) 的 例子 。 


真实 世界 的 问题 ， 真 实 世 界 的 解法 


既然 摆 出 了 一 个 真实 世界 的 例子 ， 就 应 该 指出 这 个 解法 在 真实 世界 中 的 缺憾 。 我 已 经 说 过 ， 
这 些 例子 的 目的 在 于 展示 正则 表达 式 的 使 用 方法 ， 而 Perl 程序 不 过 是 展示 的 手段 。 我 使 用 
的 Perl 程序 并 不 一 定 使 用 了 最 有 效 或 者 最 好 的 解法 但是， 我 希望 它 能 说 明正 则 表达 式 的 
用 法 。 


同样 , 真实 世界 的 邮件 信息 比 这 个 简单 问题 中 的 邮件 信息 复杂 很 多 。From: 这 一 行 就 可 能 有 
许多 种 格式 ， 而 我 们 的 程序 只 能 处 理 一 种 。 如 果真 正 的 From; 这 一 行 无 法 匹配 我 们 的 模式 ， 
则 $from_name 变量 就 不 会 设置 ， 使 用 时 保持 在 未 定义 的 状态 (也 就 是 “没有 值 ”的 值 的 一 
种 )。 理 想 的 解决 办 法 是 修改 这 个 正则 表达 式 , 让 它 能 够 处 理 各 种 不 同 的 邮件 地 址 /姓名 格式 ， 


答 4: 在 Perl 的 正则 表达 式 新 双 引 号 内 的 字符 事 中 ， 大 多 数 “8@ ”部 必须 转 义 (777), 
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不 过 ， 作 为 第 一 步 ， 在 检查 原始 邮件 之 后 〈 生 成 回复 模板 之 前 ) ， 我 们 可 以 这 样 


if ( not defined(S$reply_address) 

or not defined($from_name) 

or not defined ($subject) 

or not defined($date) ) 
{ 

die “couldn't glean the required information!"*; 
} 


Perl 的 defined 函数 检查 一 个 变量 是 否 设 置 了 值 ， 而 aie 函数 用 来 发 出 错误 信息 ， 退 出 程 
序 。 


另 一 点 需要 考虑 的 是 ， 程 序 假设 From: 这 一 行 出 现在 Reply-To: 之 前 。 如 果 From: 出 现在 
之 后 ， 就 会 覆盖 从 Reply-To 取得 的 Sreply_adaress。 


真正 的 ”真实 世界 


发 送 电子 邮件 的 程序 有 许多 类 ， 每 类 程序 对 标准 的 理解 都 不 一 样 ， 所 以 处 理 电子 邮件 并 不 
是 件 简单 的 事情 。 我 曾经 想 用 Pascal 程序 来 处 理 电子 邮件 ， 但 我 发 现 ， 如 果 没 有 正则 表达 
式 ， 处 理 起 来 极其 困难 ， 困 难 到 我 决定 先 用 Pascal 写 一 个 类 似 Perl 的 正则 表达 式 包 ， 再 来 
做 其 他 事情 。 进 入 没有 正则 表达 式 的 世界 之 后 才 发 现 ， 自 己 已 经 习惯 正则 表达 式 的 功能 和 
便捷 了， 而 我 显然 不 希望 在 没有 正则 表达 式 的 世界 呆 太 久 。 


用 环视 功能 为 数值 添加 逗号 、 

Adding Commas to a Number with Lookaround 

大 的 数值 ， 如 果 在 其 间 加 入 逗号 ， 会 更 容易 看 懂 。 下 面 的 程序 : 
print “The US population is $pop\n’; 


可 能 输出 “The US population is 298444215”， 但 对 大 多 数 说 英语 的 人 来 说 ，“298,444,215” 
看 起 来 更 加 自然 。 用 正则 表达 式 该 如 何 做 呢 ? 


动脑 子 想 想 这 个 问题 ， 我 们 应 该 从 这 个 数 的 右边 开始 ， 每 次 数 3 位 数字 ， 如 果 左边 还 有 数 
字 的 话 ， 就 加 入 一 个 逗号 。 如 果 我 们 能 把 这 种 思路 直接 用 到 正则 表达 式 中 当然 很 好 ， 可 异 
正则 表达 式 一 般 都 是 从 左 向 右 工 作 的。 不 过 梳理 一 下 思路 就 会 发 现 ， 逗 号 应 该 加 在 “左边 有 
数字 ， 右 边 数字 的 个 数 正 好 是 3 的 倍数 的 位 置 "， 这 样 ， 使 用 一 组 相对 较 新 的 正则 表达 式 特 
性 一 一 它们 统称 为 “环视 (lookaround)” 一 一 轻松 地 解决 这 个 问题 。 


环视 结构 不 匹配 任何 字符 ， 只 匹配 文本 中 的 特定 位 置 ， 这 一 点 与 单词 分 界 符 、\bj、 销 点 ) 
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Al's: 相似 。 但 是 ， 环 视 比 它们 更 加 通用 。 


一 种 类 型 的 环视 叫 “ 顺 序 环 视 (lookahead)"， 作 为 表达 式 的 一 部 分 ， 顺 序 环视 顺序 (从 左 
至 右 ) 查看 文本 ， 尝 试 匹配 子 表达 式 ， 如 果 能 够 匹配 ， 就 返回 匹配 成 功 信息 。 肯 定型 顺序 
环视 (positive lookahread) 用 特殊 的 序列 '(?=…) ,来 表示 , 例如 '(?=\a)，,, 它 表示 如 果 当 前 
位 置 右边 的 字符 是 数字 则 匹配 成 功 。 另 一 种 环视 称 为 逆序 环视 ， 它 逆序 (从 右 向 左 ) 查看 
文本 。 它 用 特殊 的 序列 '(?<=…) ,表示 ， 例 如 和 (?<=\d);， 如 果 当 前 位 置 的 左边 有 一 位 数字 ， 
则 匹配 成 功 (也 就 是 说 ， 紧 跟 在 数字 后 面 的 位 置 )。 


环视 不 会 “占用 ”字符 


在 理解 顺序 环视 和 其 他 环视 功能 时 需要 特别 注意 一 点 ， 即 在 检查 子 表达 式 能 否 匹 配 的 过 程 
中 ， 它 们 本 身 不 会 “占用 ”任何 文本 。 这 可 能 有 点 难 懂 ， 所 以 我 准备 了 下 面 的 例子 。 正 则 
表达 式 Jeffrey 匹配 : 


“by Jeffrey Friedl. 


但 同样 的 正则 表达 式 ， 如 果 使 用 顺序 环视 功能 ， 即 "(?=zeffrey),， 则 匹配 标记 的 位 置 ， 
«DY Jeffrey Friedl. 

顺序 环视 会 检查 子 表达 式 能 否 匹 配 ， 但 它 只 寻找 能 够 匹配 的 位 置 ， 而 不 会 真正 “占用 ”这 

些 字符 。 不 过 ， 把 顺序 环视 和 真正 匹配 字符 的 部 分 一 -例如 Jeff 结合 起 来 ， 我 们 能 

得 到 比 单纯 的 Jeff 更 精确 的 结果 。 结合 之 后 的 正则 表达 式 是 !(?=zeffrey)Jeff, 下 一 页 

的 图 说 明 ， 它 只 能 匹配 “Jeffrey” 这 个 单词 中 的 “Jeff”" 。 它 能 够 匹配 : 


„by Jeffrey Friedl. 


在 此 处 它 的 匹配 和 单纯 的 ‘Jeff; 一 样 ， 但 是 下 面 的 情况 不 会 匹配 : 
“by Thomas Jefferson 
Jeff: 自己 能 够 匹配 这 一 行 , 但 是 因为 不 存在 !(?=Jeffrey)) 能 够 匹配 的 位 置 , 整个 表达 式 


就 无 法 匹配 。 现 在 环视 的 好 处 还 看 得 不 是 很 明显 ， 但 是 请 不 用 担心 ， 现 在 我 们 只 需要 关心 
顺序 环视 的 原理 一 一 我 们 很 快 会 遇 到 能 够 充分 展现 其 价值 的 例子 , 。 


受 此 启发 , 你 或 许 会 发 现 (?=Jeffrey)Jeffj 和 'eff(?=rey), 是 等 价 的 (能 够 发 现 这 一 点 
的 读者 很 了 不 起 )。 它 们 都 能 匹配 “Jeffrey” 这 个 单词 中 的 “Jeff" 。 


我 们 还 需要 认识 到 , 它们 结合 的 顺序 非常 重要 。'Jeff (?=Jeffrey) ,不 会 匹配 上 面 的 任何 一 
个 例子 ， 而 只 会 匹配 后 面 紧 跟 有 “Jeffrey” 的 “Jeff”。 
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真正 匹配 的 字符 


师 序 环视 的 结果 wy 


测试 顺序 环视 时 匹配 的 文本 = 





2-5; !(?=Jeffrey)Jeff 的 匹配 


还 有 一 点 很 重要 , 即 环视 结构 使 用 特殊 的 表示 法 。 就 像 45 页 介绍 的 非 捕获 型 括号 “(?:…)” 
一 样 ， 它 们 使 用 特殊 的 字符 序列 作为 自己 的 “ 开 插 号"。 这 样 的 “ 开 括 号 ”序列 有 许多 种 ， 
但 它们 都 以 两 个 字符 “(?” 开 头 。 问 号 之 后 的 字符 用 来 标志 特殊 的 功能 。 我 们 曾经 看 到 过 
“分 组 但 不 捕获 ”的 “(?:…)”、 顺 序 环视 的 “(?=…)”， 以 及 逆序 环视 的 “(?<=…) ”结构 ， 
下 面 还 会 看 到 更 多 。 


再 来 几 个 顺序 环视 的 例子 


我 们 马上 就 要 在 数字 间 插 入 逗号 了 ， 不 过 现在 先 多 看 几 个 环视 的 例子 。 首 先 我 们 要 把 所 有 
ff “Jeffs” $k “Jeff's”, 不 使 用 环视 也 能 很 容易 做 到 这 一 点 , 即 e/Jeffs/Jeff's/g (id 
住 ，/g 表示 “全 局 替换 ”， 了 51)。 更 好 的 办 法 是 添加 单词 分 界 符 铺 点 : 8/\bJeffs 
\b/Jeff's/g。 


我 们 也 可 以 使 用 更 复杂 的 表达 式 ， 例 如 e/\b(Jeff) (s) \b/$1'$2/g, 但 是 这 样 简单 的 任务 
似乎 不 值得 这 么 麻烦 ， 所 以 我 们 暂时 仍然 使 用 e/\bJeffs\b/Jeff's/g。 现 在 来 看 另 一 个 
正则 表达 式 


S/\bJeff(?=s\b)/Jeff'/g 


两 者 唯一 的 区 别 在 于 ， 最 后 的 s\b, 现在 位 于 顺序 环视 结构 。 下 一 页 的 图 2-6 说 明了 这 个 正 
则 表达 式 的 匹配 情况 。 正 则 表达 式 变化 之 后 ，replacement 字符 串 中 的 “s” 也 相应 地 被 删 去 
T. 


Jeff 匹配 之 后 , 接 下 来 尝试 的 就 是 顺序 环视 。 只 有 当 's\b, 在 此 位 置 能 够 匹配 时 (也 就 是 
‘Jett’ 之 后 紧 跟 一 个 “s” 和 一 个 单词 分 界 符 ) 整个 表达 式 才能 匹配 成 功 。 但 是 , 因为 s\b， 
只 是 顺序 环视 子 表达 式 的 一 部 分 , 所 以 它 匹配 的 “s ”不 属于 最 终 的 匹配 文本 。 记 住 ，Jeffl 
确定 匹配 文本 ， 而 顺序 环视 只 是 “选择 ”一 个 位 置 。 在 此 处 使 用 顺序 环视 的 唯一 好 处 在 于 ， 
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图 2-6: \bJeff(?=s\b), 的 匹配 


它 保证 表达 式 不 会 匹配 任意 的 情况 。 或 者 从 另 一 个 角度 来 说 就 是 ， 它 容许 我 们 在 只 匹配 
'Jeffj 之 前 检查 整个 Jeffs 


为 什么 不 在 最 终 匹 配 的 结果 中 包含 顺序 环视 匹配 过 的 文本 呢 ? 通 常 ， 这 是 因为 我 们 希望 在 
表达 式 的 后 面部 分 ， 或 者 在 稍 后 应 用 正则 表达 式 时 ， 再 次 检测 这 段 文本 。 过 几 页 ， 当 我 们 
真正 开始 解决 在 数值 中 加 入 逗号 的 问题 时 ， 就 会 明白 它 的 作用 。 但 是 在 上 面 的 例子 中 ,使 
用 顺序 环视 的 原因 在 于 : 我 们 希望 检查 整个 'Jeffs,/， 因 为 这 是 我 们 希望 加 入 撤 号 的 地 方 ， 
但 是 如 果 匹 配 的 只 是 “Jeff' ， 就 能 减 小 replacement 字符 串 的 长 度 。 因 为 “s” 不 再 是 最 终 
匹配 结果 的 一 部 分 , 也 就 不 再 是 replacement 的 一 部 分 , 所 以 我 们 可 以 从 replacement 字符 串 
中 去 掉 它 。 


所 以 ， 尽 管 这 两 种 办 法 所 用 的 正则 表达 式 和 replacement 字符 串 各 不 相同 ， 它 们 的 结果 却 是 
一 样 的 。 现 在 看 起 来 ， 这 些 应 用 正则 表达 式 的 技巧 都 有 些 花 架子 的 味道 ， 但 是 我 这 么 做 是 
有 目的 的 ， 请 继续 往 下 看 。 


比较 上 面 的 两 个 例子 ， 最 后 的 sM “E (main)” 表 达 式 中 移 到 了 顺序 环视 部 分 中 。 如 果 
我 们 把 开头 的 "reff) 照样 搬 到 逆序 环视 中 呢 ? 结果 是 (?<=\bJeff) (?=s\b) 它 的 意思 是 ， 
找到 这 样 一 个 位 置 ， 它 紧 接 在 “Jeff” 之 后 , E ‘s 之 前 。 这 正好 就 是 我 们 希望 插入 撤 号 
的 地 方 。 所 以 ， 我 们 这 样 震 换 : 


8/(?<=\bJeff) (?=s\b)/'/g 


这 个 表达 式 很 有 意思 ， 它 实际 上 并 没有 匹配 任何 字符 ， 只 是 匹配 了 我 们 希望 插入 撤 号 的 位 
置 。 在 这 种 情况 下 ,我 们 并 没有 “替换 ”任何 字符 ， 而 只 是 插入 了 一 个 撤 号 。 图 2-7 作 了 说 
明 。 在 几 页 以 前 ， 我 们 看 到 过 这 样 的 替换 ， 使 用 se/^/1>'"/ 在 行 首 加 入 “1>”。 
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"see Jeffs book" 


测试 顺序 环视 时 匹配 的 文本 
逆序 环视 的 结果 





图 2-7: '(?<=\bJeff)(?=s\b), 的 匹配 


如 果 我 们 把 两 个 环视 结构 调换 位 置 ， 这 个 正则 表达 式 的 功能 会 改变 吗 ? 也 就 是 说 ， 
s/(?=s\b)(?<=\bJeff)/'/g 的 结果 如 何 ? 令 请 翻 到 下 一 页 查看 答案 。 


“Jeffs” ERRA 表 2-1 总 结 了 我 们 见 过 的 把 Jeffs 替换 为 Jeff's 的 几 种 办 法 。 
表 2-1: 解决 “Jeffs” 问 题 的 几 种 办 法 


RAS ts ey ee ee 
RAE, REH, HED, 解决 此 类 问题 最 容易 想 
8/\bJeffs\b/Jeff's/g 到 的 办 法 ， 未 使 用 环视 ， 正 则 表达 式 “ 占 用 ”整个 
‘Jeffs’, 
nt (a) Yossi re 只 增加 了 复杂 程度 ， 没 有 好 处 ， 正 则 表达 式 占用 束 
个 ‘Jeffs’, 
“a l 并 没有 占用 “s" ， 除 了 展示 顺序 环视 之 外 ， 没 什么 
8/\bJeff (?=s\b)/Jeff'’'/g 实用 价值 。 
并 没有 “占用 ”任何 文本 ， 同 时 使 用 顺序 环视 和 北 
s/(2?<=\bJeff) (?=s\b)/"/g 序 环视 匹配 需要 的 位 置 ， 即 撤 号 插入 的 位 置 。 非 常 
适 于 讲解 环视 。 
与 上 一 个 表达 式 完全 相同 ， 只 是 颠倒 了 两 个 环视 结 
8/(?=s\b) (?<=\bJeff)/"/g 构 。 因 为 它 并 没有 占用 任何 字符 ， 所 以 变换 顺序 并 
没有 影响 。 


回 到 “在 数值 中 加 入 逗号 ”之 前 ， 我 先 提 一 个 关于 这 些 表达 式 的 问题 。 如 果 我 希望 找到 不 
区 分 大 小 写 的 “Jeffs”"， 在 替换 之 后 仍然 保持 原来 的 大 小 写 ， 使 用 /i 能 实现 这 个 目标 吗 ? 
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测验 答案 


+ 63 页 小 测验 的 答案 

s/(?=s8\b) (?<=\bdeff)/'/g 的 结果 是 什么 ? 

在 本 例 中 ,'(?=s\b)) 和 '(?<=\bJeff); 的 先后 顺序 是 无 关 紧 要 的 。 无 论 是 “ 先 检查 左 
边 ， 再 检查 右边 ”还 是 相反 ， 关 键 是 ， 在 同一 个 位 置 两 边 的 检测 必须 都 能 成 功 ， 整 个 
匹配 才 算 成 功 。 例 如 , ASHE “Thoma seff erson 中 ， 1(?=s\b)j 和 5!(?<=\bJeff)) 


部 能 匹配 (在 标记 的 两 个 位 置 ), 但 是 这 两 个 位 置 并 不 重合 ， 所 以 这 两 个 环视 的 结合 体 
不 能 成 功 匹 配 。 

“两 者 的 结合 ” (combanation of the two) 虽然 有 些 模糊 ， 但 用 来 描述 这 个 问题 并 没有 
问题 ， 因 为 在 此 处 它 的 意义 很 明显 。 不 过 ， 有 了 时候， 正则 引 掌 应 用 表达 式 的 方式 可 能 
并 不 这 么 明显 。 因 为 引 掌 的 工作 原理 对 正则 表达 式 的 实际 意义 有 直接 的 影响 ， 详 细 讲 
解 见 第 4 章 。 





提示 : 至 少 有 两 个 表达 式 无 法 做 到 这 一 点 。 仿 请 思考 这 个 问题 ， 答 案 见 下 页 。 


回 到 去 号 的 例子 … 


你 可 能 已 经 意识 到 了 “Je 扩 ”的 例子 和 插入 逗号 的 例子 之 间 存 在 某 种 联系 ,因为 它们 都 需要 
通过 正则 表达 式 寻 找到 某 个 位 置 ， 然 后 插入 文本 。 


我 们 已 经 知道 我 们 希望 插入 逗号 的 位 置 必须 满足 “左边 有 数字 ， 右 边 数 字 的 个 数 正好 是 3 
的 倍数 " 。 第 二 个 要 求 用 逆序 环视 很 容易 解决 ， 左 边 只 要 有 一 位 数字 就 能 够 满足 “左边 有 数 
字 ” 的 要 求 ， 这 就 是 "(?<=\a) j。 


现在 来 看 “右边 数字 的 个 数 正 好 是 3 的 倍数 "。3 位 数字 当然 可 以 表示 为 ddd, iI 
以 用 (…) + 来 表示 (3 的 )“ 若 干 倍 ”, 再 添加 一 个 '$, 来 确保 这 些 数字 后 面 不 存在 其 他 字符 
(保证 “正好 ”)。 孤 立 的 '(\d\a\d)+$) 匹配 从 字符 串 末尾 向 前 数 的 3x 位 数字 ， 但 是 加 入 
(?=…) 1 的 环视 结构 之 后 ， 它 就 能 匹配 “右边 数字 的 个 数 正好 是 3 的 倍数 的 位 置 "， 例 如 
“123 .456,789” 中 的 标记 人 位置。 实际 上 并 不 是 所 有 这 些 位 置 都 符合 要 求 一 一 我 们 不 希望 
在 第 一 个 数字 之 前 加 入 去 号 一 一 所 以 我 们 添加 ( 2<=\ a) ,来 限定 匹配 的 位 置 。 
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代码 段 如 下 : 


Spop =~ S/(?<=\d) (?=(\d\d\d)+$)/,/g; 

print “The US population is $pop\n’; 
确实 输出 了 我 们 期 望 的 “The US population is 298,444,215”, 不 过 ， 有 点 奇怪 的 是 , '\a\a\a; 
两 边 的 括号 是 捕获 型 括号 。 但 是 在 这 里 ， 我 们 只 用 它 来 分 组 ， 把 加 号 作用 于 3 位 数字 ， 所 
以 不 需要 把 它们 捕获 的 文本 保存 到 $1 中 。 


我 可 以 使 用 第 45 页 补充 内 容 介 绍 的 非 捕 获 型 括号 :'(?:…),， 得 到 和 (?<=\ad) (?=(?:\a 
\G\G)+$) J。 这样 做 的 好 处 在 于 ， 见 到 这 个 正则 表达 式 的 人 不 会 担心 与 捕获 型 括号 关联 的 $1 
是 否 会 被 用 到 ， 而 且 它 的 效率 更 高 ， 因 为 引擎 不 需要 记忆 捕获 的 文本 。 另 一 方面 ， 即 使 是 
(力也 有 点 难以 看 懂 ， 更 不 用 说 (2-0 了， 所 以 我 在 这 里 选择 更 清晰 的 表达 方式 。 构 建 
正则 表达 式 时 ， 经 常 需要 权衡 这 两 个 因素 。 从 我 个 人 来 说 ， 我 愿意 在 适用 的 所 有 地 方 使 用 
(3?:…) Js， 但 是 在 讲解 其 他 知识 时 选择 更 清晰 的 表达 方式 (也 是 本 书 中 的 常见 情况 )。 


单词 分 界 符 和 否定 环视 


现在 假设 ， 我 们 希望 把 这 个 插入 逗号 的 正则 表达 式 应 用 到 很 长 的 字符 串 中 ， 例 如 : 
$text = “The population of 298444215 is growing’; 


$text =~ S/(?<=\d) (?=(\d\d\d)+$)/, /g; 

print “$text\n"; 
很 显然 程序 没有 结果 ,因为 S 要 求 字 符 串 以 3 的 倍数 位 数字 结尾 。 我 们 不 能 只 去 掉 这 里 的 
S$5， 因 为 这 样 会 从 左边 第 一 位 数字 之 后 ， 右 边 第 三 位 数字 之 前 的 每 一 个 位 置 插入 逗号 一 一 
结果 是 “… of 2,9,8,4,4,4,215 …”| 


可 能 初 看 起 来 这 问题 有 些 杯 手 ， 但 我 们 可 以 用 单词 分 界 符 \bi 来 替换 Si RERI ERK 
只 是 数字 ，Perl 的 “单词 ”概念 也 能 够 解决 这 个 问题 。 就 像 w (749) 一 样 ，Perl 和 其 他 
语言 都 把 数字 、 字 母 和 下 画 线 当 作 单 词 的 一 部 分 。 结 果 ， 单 词 分 界 符 的 意思 就 是 ， 在 此 位 
置 的 一 侧 是 单词 〈 例 如 数字 ) ， 另 一 侧 不 是 〈 例 如 行 的 末尾 ， 或 者 数字 后 面 的 空格 ) 。 


这 个 “一 侧 如 此 这 般 ， 另 一 侧 如 此 那 般 ” 听 起 来 很 耳 熟 ， 对 吗 ? 因为 这 正 是 我 们 在 “Jeffs” 
例子 中 所 做 的 。 区 别 之 一 在 于 ， 有 一 侧 必须 使 用 否定 的 匹配 。 这 样 看 来 ， 迄 今 为 止 我 们 用 
到 的 顺序 环视 和 逆序 环视 应 该 被 称 作 肯 定 顺 序 环视 (positive lookahead) 和 肯定 送 序 环视 
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测验 答案 


o 第 64 页 的 测验 答案 

在 使 用 /i 时 ， 哪 些 办 法 会 保留 原来 文本 的 大 小 写 ? 

为 了 保留 大 小 写 ， 要 么 仅仅 替换 被 占用 的 字符 (而 不 是 任何 情况 下 都 插入 Jeff's’), 
要 么 不 占用 任何 字符 。 表 2-1 中 的 第 二 个 表达 式 采 取 了 第 一 种 思路 ， 匹 配 占 用 的 字符 ， 
用 $1 和 $2 把 它们 替换 回来 。 后 两 种 解法 选择 了 “不 占用 任何 字符 ”的 思路 。 因 为 它们 
不 占用 任何 字符 ， 所 以 不 需要 保留 任何 文本 。 

第 一 和 第 三 种 解法 使 用 硬 编码 的 replacement 字符 事 。 如 果 使 用 /i， 他们 不 会 保留 原来 
的 大 小 写 信息 。 它 们 分 别 把 JEFFS 错误 地 替换 为 Jeff's Fo Jeff's, 





(positive lookbehind) 。 因 为 它们 成 功 的 条 件 是 子 表达 式 在 这 些 位 置 能 够 匹配 。 表 2-2 告诉 
我 们 ， 正 则 表达 式 还 提供 了 相对 应 的 否定 顺序 环视 和 和 否定 逆序 环视 。 从 名 字 就 能 看 出 ， 它 
们 成 功 的 条 件 是 子 表达 式 无 法 匹配 。 


表 2-2: 四 种 类 型 的 环视 








(oS LTS ， 
> eh -及 oo} e 
BA A ai 


子 表达 式 能 够 匹配 左 侧 文本 

子 表达 式 不 能 匹配 左 侧 文本 
子 表达 式 能 够 匹配 右 侧 文本 
子 表 达 式 不 能 匹配 右 侧 文本 


所 以 , 如 果 单 词 分 界 符 的 意思 是 :一 侧 是 \w 而 另 一 侧 不 是 \w, 我 们 就 能 用 (?<!\w) (?=\w)， 
来 表示 单词 起 始 分 界 符 ， 用 '(?<=\w) (?1\w) 表示 单词 结束 分 界 符 。 把 两 者 结合 起 来 ， 
((?<!\w) (?=\w)1(?<=\w) (2!\w) ) ,就 等 价 于 by。 在 实践 中 ， 如 果 语 言 本 身 支持 \b (\b 
更 直接 ， 效 率 也 更 高 )， 这 样 做 有 点 多 此 一 举 , 但 是 可 能 的 确 有 地 方 需要 用 到 这 两 个 单独 的 
多 选 分 支 (7134), 


对 我 们 的 逗号 插入 问题 来 说 , 我 们 真正 需要 的 是 '(?!\d), 来 标记 3 位 数字 的 起 始 计数 位 置 。 
我 们 用 它 来 取代 "\b, 或 者 '$/， 得 到 : 
$text =~ s/(?<=\d) (?=(\d\d\d)+(?!\d))/,/g; 


这 个 表达 式 在 处 理 类 似 “…tone of 12345Hz” 的 文本 时 效果 很 好 不幸 的 是 ， 它 同样 会 匹配 
“…the 1970s …” 中 的 年 份 。 实 际 上 ， 我 们 根本 不 希望 这 里 的 正则 表达 式 能 够 匹配 “…in 










肯定 弟 序 环视 
否定 北 序 环视 
肯定 顺序 环视 
否定 顺序 环视 
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1970…"。 所 以 ， 我 们 必须 知道 期 望 用 正则 表达 式 处 理 的 文本 ， 以 及 开发 的 程序 适合 解决 什 
么 样 的 问题 (如 果 数据 包含 年 份 信息 ， 这 个 正则 表达 式 可 能 就 不 适合 )。 

在 关于 单词 分 界 符 和 不 希望 匹配 的 字符 的 讨论 中 ， 我 们 使 用 了 否定 顺序 环视 ,“(?!\w) ,或 
UPNA) 1 你 可 能 还 记得 第 49 页 出 现 的 表示 “ 非 数字 "的 字符 "\Di, 认为 它 可 以 取代 '(?1\a) 1。 
这 并 不 正确 。 记 住 , \D, 的 意思 是 ,“ 某 个 不 是 数字 的 字符 ",“ 某 个 字符 ”是 必须 的 ， 只 是 
它 不 能 为 数字 。 如 果 在 搜索 的 文本 中 ， 数 字 之 后 没有 字符 , \D 是 无 法 匹配 的 (在 第 12 页 
的 补充 内 容 中 我 们 见 到 过 类 似 的 情况 )。 


不 通过 逆序 环视 添加 逗号 


逆序 环视 和 顺序 环视 一 样 ， 所 获 的 支持 十 分 有 限 (使 用 也 不 广泛 )。 顺 序 环视 比 逆序 环视 早 
出 现 几 年 ， 尽管 Perl 现在 两 者 都 支持 ， 许 多 其 他 语言 却 不 是 这 样 。 所 以 ， 想 一 想 不 用 逆序 
环视 来 解决 添加 逗号 的 问题 可 能 更 有 意义 。 来 看 下 面 的 表达 式 : 


$text =~ S/(\d) (?=(\d\d\d)+(?!\d)/ $1,/g; 
Me Le) 


它 与 之 前 的 表达 式 的 差别 在 于 ， 开 头 的 仆 d 所 处 的 肯定 逆序 环视 变 成 了 捕获 型 括号 ， 
replacement 字符 串 则 在 逗号 之 前 加 入 了 相应 的 S1 。 


如 果 我 们 连 顺 序 环 视 也 不 用 昵 ? 我 们 可 以 用 、\b 取代"'(?:\dj， 但 这 个 消除 逆序 环视 的 技巧 
是 否 对 剩 下 的 顺序 环视 有 效 呢 ? 也 就 是 说 ， 下 面 的 办 法 可 行 吗 ? 


$text =~ e/(\d) ((\d\d\d)+\b) /$1,$2/g; 


4 请 翻 到 下 页 查看 答案 。 


Text-to-HTML 转换 


Text-to-HTML Conversion 


现在 我 们 写 一 个 把 Text (XÆ) 转换 为 HTML ( 超 文 本 ) 的 小 工具 ， 如 果 要 处 理 所 有 的 
情况 ， 程 序 将 非常 难 写 ， 所 以 现在 我 们 只 写 一 个 用 于 教学 的 小 工具 。 


在 目前 我 们 看 过 的 所 有 例子 中 ， 作 为 正则 表达 式 应 用 对 象 的 变量 都 只 包含 一 行文 本 。 对 这 
个 例子 来 说 ， 把 我 们 需要 转换 的 所 有 文本 放 在 同一 个 字符 串 中 比较 方便 。 在 Perl 中 ， 我 们 
可 以 很 容易 地 这 样 做 : 


undef $/; # 进入 "file-slurp” (文件 读 取 ) BA 
$text = <>; # 读 入 命令 行 中 指定 的 第 一 个 文件 
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测验 答案 


+ 67 页 问题 的 答案 
$text =~ s/(\d) ((\d\d\d)+\b)/$1,$2/g; BS ARF + Bik $4? 


结果 并 非 我 们 的 期 望 。 得 到 的 是 类 似 “281,421906” 的 字符 事 。 这 是 因为 ‘(\d\d\d)+] 
匹配 的 数字 属于 最 终 匹 配 文本 ， 所 以 不 能 作为 “未 匹配 的 ”部 分 ， 供 /1g 的 下 一 次 匹配 
ik AAR A. 

RRR, F-KHRRSME-KERMHAAABER, ATAA, A 
插入 过 号 以 后 ， 还 能 够 继续 检查 这 个 数值 ， 以 决定 是 否 需要 再 插入 过 号 。 但 是 ， 在 这 
个 例子 中 ， 重 新 开始 的 起 点 是 整个 数值 的 末尾 。 使 用 顺序 环视 的 意义 在 于 ， 检 查 某 个 
位 置 ， 但 检查 时 匹配 的 字符 并 不 算 在 (RH) “匹配 的 字符 事 ” 内 。 

实际 上 ， 这 个 表达 式 仍然 可 以 用 来 解决 这 个 问题 ， 但 正则 表达 式 必 须 由 宿主 语言 反复 
调用 ， 例 如 通过 一 个 while 特 环 ， 每 次 检查 的 都 是 上 次 修改 后 的 字 待 事 。 每 次 替换 操 
作 都 会 添加 一 个 过 号 (对 目标 字符 事 中 的 每 个 数值 都 是 如 此 ， 因 为 /g HHA), FR 
是 一 个 例子 : 

while ( $text =~ s/(\d)((\d\d\d)+\b)/$1,$2/q ) { 


# 循环 内 不 用 进行 任何 操作 一 一 我 们 希望 的 是 重复 这 个 搞 环 ， 直 到 匹配 失败 
} 





如 果 我 们 的 样本 文件 包含 3 个 短 行 : 
This is a sample file. 


It has three lines. 
That's all 


变量 $text 的 内 容 就 是 : 
This is a sample file. It has three lines. Ñ That’s all 
在 某 些 平台 上 ， 也 可 能 是 : 
This is a sample file. F] It has three lines. 团 各 That's 2114 A) 


这 是 因为 大 多 数 系统 采用 换行 符 作为 一 行 的 终结 符 ， 而 某 些 系 统 〈 主 要 是 Windows) 使 用 
回 车 /换行 的 结合 体 。 我 们 会 确保 这 个 简单 的 工具 能 应 付 这 两 种 情况 。 


处 理 特 殊 字符 


首先 我 们 需要 确保 原始 文本 中 的 “& 、 “<” 和 “> ”字符 “不 会 出 错 "， 把 它们 转换 为 对 应 
的 HTML 编码 ， 分 别 是 “samp”、 ‘alt’ # ‘sgt’, E HTML 中 这 些 字 符 有 特殊 的 含义 ， 


if 
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编码 不 正确 可 能 会 导致 显示 错误 ,我 称 这 种 简单 的 转换 为 “为 HTML 而 加 工 (cooking the text 
for HTML)”， 它 的 确 非常 简单 : 

Stext =- 8/&/&amp;/g; # 保证 基本 的 HTML... 

$text =~ s/</&lt;/g; # .. 字符 & <, and >.. 

$text =~ 8/>/&gt;/g; # .转换 后 不 出 锚 
请 注意 ， 我 们 使 用 了 /g 来 对 所 有 的 目标 字符 进行 替换 (如 果 不 用 /g， 就 只 会 替换 第 一 次 出 
现 的 特殊 字符 )。 首 先 转换 g 是 很 重要 的 ， 因 为 这 三 者 的 replacement 中 都 有 “sx ”字符 。 


分 隔 段 落 


接 下 来 我 们 用 HTML tag 中 表示 分 段 的 <p> 来 标记 段落 。 识 别 段落 的 简单 办 法 就 是 把 空 行 作 
为 段落 之 间 的 分 隔 。 搜 索 空 行 的 办 法 有 很 多 ， 最 容易 想到 的 是 : 


$text =~ s8/°S/<p>/g; 


它 可 以 匹配 “ 行 末尾 紧 随 行 开头 的 位 置 "。 确 实 ， 我们 已 经 在 第 10 页 看 到 , 在 egrep 之 类 的 
工具 中 这 样 行 得 通 ， 因 为 其 中 被 检索 的 文本 通常 只 包含 逻辑 上 的 一 行文 本 。 在 Perl 中 也 同 
样 有 效 ， 对 于 之 前 看 到 过 的 E-mail 的 例子 ， 我 们 知道 每 一 个 字符 串 只 包含 一 个 逻辑 行 。 


但 是 , 我 已 经 在 第 55 页 的 脚注 中 提 到 过 ,和 $ 通常 匹配 的 不 是 逻辑 行 的 开头 和 结尾 , 而 
是 整个 的 字符 串 的 开头 和 结束 位 置 〈 注 5)。 所 以 ， 既 然 目标 字符 串 中 有 多 个 逻辑 行 ， 就 需 
要 采取 不 同 的 办 法 。 


幸好 , 大 多 数 支 持 正则 表达 式 的 语言 提供 了 一 个 简单 的 办 法 , 即 “增强 的 行 锚 点 ”(enhanced 
line anchor) 匹配 模式 , 在 这 种 模式 下 ,“^! 和 '$, 会 从 字符 申 模式 切换 到 本 例 中 需要 的 逻辑 行 
模式 。 在 Perl 中 ,使 用 /m 修饰 符 来 选择 此 模式 : 


$text =~ e/*S/<p>/mg; 


请 注意 这 里 同时 使 用 了 /m 和 /gs( 你 可 以 以 任何 顺序 排列 需要 使 用 的 多 个 修饰 符 )。 在 下 一 章 ， 
我 们 会 看 到 其 他 语言 是 如 何 处 理 修饰 符 的 。 


所 以 ， 如 果 我 们 从 Stext 的 “…chapter .四 A Thus…” 开 始 , 会 得 到 期 望 的 “…chapter. 
<p> Ñ] Thus…”。 


不 过 ， 如 果 在 “ 空 行 ”中 包含 空格 符 或 者 其 他 空白 字符 ， 这 么 做 就 行 不 通 。 为 了 处 理 空 白 
字符 , BANE sss, 或 者 是 “^["\t\r]*$, 来 匹配 某 些 系 统 在 换行 符 之 前 的 空格 符 、 制 表 





£5: 实际 上 ,5!$ 通 常 比 简单 的 “字符 事 结 尾 ” 要 更 复杂 些 ， 尽 管 对 本 例 中 这 并 不 重要 。 详 细 信 
息 请 阅读 第 129 页 关于 行 结束 锚 点 的 讨论 。 


iii 
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符 或 者 回 车 符 。 这 两 个 表达 式 与 “5$ 是 完全 不 同 的 ， 因 为 它们 确实 匹配 了 一 些 字符 , 而 “$， 
只 匹配 位 置 。 不 过 ， 因 为 在 本 例 中 我 们 不 需要 这 些 空格 符 、 制 表 符 和 回 车 符 ， 匹 配 〈 然 后 
用 分 段 tag 来 替换 ) 这 些 字符 不 会 带 来 任何 问题 。 


如 果 你 还 记得 第 47 页 的 \s,/， 你 可 能 会 想到 "^\s*$,， 就 像 我 们 在 第 55 页 E-mail 的 例子 中 
所 用 的 那样 。 如 果 用 \s; 取 代 'i*\t\r]1;， 因 为 \'s; 能 够 匹配 换行 符 ， 所 以 整个 表达 式 的 意 
义 就 不 再 是 “寻找 空 行 及 只 包括 空白 字符 的 行 ”， 而 是 “寻找 连续 、 空 行 和 只 包括 空白 字符 
的 行 的 结合 "。 也 就 是 说 ， 如 果 我 们 找到 多 个 连续 的 这 样 的 文本 行 ， 一 个 “^\s*$, 就 能 够 匹 
配 它们 。 这 样 的 好 处 在 于 , 只 会 留 下 一 个 <p>, 而 不 是 像 以 前 那样 有 多 少 空 行 就 留 下 多 少 <p>。 


所 以 ， 如 果 $text 有 这 样 的 字符 串 
-~with.& * & Therefore- 


RHA: 
$text =~ 8/^[ \t\r]*$/<p>/mg; 
结果 就 是 
with. <p> N <p> AJ <p> N Therefore… 


不 过 ， 如 果 我 们 用 : 
$text =- 8/^\s*$/<p>/mg; 


“with.® <p> & Therefore: 


所 以 ， 在 最 终 的 程序 中 ， 我 们 会 使 用 “^\s*Si。 


将 E-mail 地 址 转换 为 超 链 接 形式 


Text-to-HTML 转换 的 下 一 步 是 识别 出 E-mail 地 址 ， 然 后 把 它们 转换 为 “mailto” 链 接 。 例 
an, jfriedl@oreilly.com 会 被 转换 为 <a"href=*mailto:jfriedleoreilly.com">jfriedl 


@oreilly.com</a>, 

用 正则 表达 式 来 匹配 或 者 验证 E-mail 地 址 是 常见 的 情况 。E-mail 地 址 的 标准 规范 异常 繁杂 ， 
所 以 很 难 做 到 百分之百 的 准确 ,但 是 一 些 简 单 的 正则 表达 式 就 可 以 应 付 遇 到 的 大 多 数 E-mail 
地 址 。E-mail 地 址 的 基本 形式 是 username@hostname。 在 思考 该 用 怎样 的 表达 式 来 匹配 各 个 
部 分 之 前 ， 我 们 先 看 看 这 个 正则 表达 式 的 具体 应 用 环境 : 


$text =~ 8/\b{lusername regexNehostname regex) \b/<a href=“mailto:$1*>$l<}\,/a>/g; 


需要 注意 的 一 点 是 其 中 两 个 用 下 画 线 标注 的 反 斜 线 ， 第 一 个 在 正则 表达 式 (e) H, 5 


L 
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一 个 在 replacement 字符 串 的 末尾 。 使 用 这 两 个 反 斜 线 的 理由 各 不 相同 。 我 会 在 稍 后 讨论 \e 
(=77)， 现 在 我 们 只 需要 知道 ，Perl 规定 作为 文本 字符 的 e 符 号 必须 转 义 。 


先 介绍 replacement 字符 串 中 在 “/” 之 前 的 反 斜 线 比 较 好 。 我 们 已 经 看 到 ，Perl 中 查找 替换 
的 基本 形式 是 s/regexVreplacement/modifier， 用 斜 线 来 分 隔 。 所 以 ， 如 果 我 们 需要 在 某 个 部 分 
中 使 用 斜 线 ， 就 必须 使 用 转 义 ， 否 则 反 斜 线 会 被 识别 为 分 隔 符 ， 作 为 字符 串 的 一 部 分 。 也 
就 是 说 ， 如 果 我 们 希望 在 replacement 字符 串 中 使 用 </a>， 就 必须 寄 作 <\/a>。 


这 么 做 当然 可 以 ,但 不 太 好 看 ,所 以 Perl 容许 用 户 自 定义 分 隔 符 。 例 如 s I regex! string | modifier, 
RMA s {regex} {string}modifier。 无 论 采 用 哪 种 形式 ， 因 为 replacement 字符 串 中 的 斜 线 不 再 与 
分 隔 符 有 冲突 ， 也 就 不 需要 转 义 。 第 二 种 形式 的 分 隔 符 非常 明显 ， 所 以 从 现在 开始 我 们 采 
用 这 种 形式 。 


回 到 程序 中 来 ， 请 注意 整个 地 址 是 处 于 \b…\b, 之 间 的 。 添 加 这 些 单词 分 界 符 能 够 避免 不 
完整 匹配 的 情况 ， 例 如 “jfried1l8oreilly .compiler’。 尽 管 遭遇 这 种 无 意义 的 字符 串 的 
几率 很 小 ， 但 使 用 单词 分 界 符 来 避免 此 类 匹配 一 点 也 不 麻烦 ， 所 以 我 会 这 么 做 。 请 注意 我 
是 如 何 用 括号 包围 整个 E-mail 地 址 的 ， 这 样 我 们 就 能 使 用 replacement 字符 审 


‘<athref=“mailto:$1">$1</a>’, 


匹配 用 户 名 和 主机 名 


现在 我 们 来 看 匹配 邮件 地 址 所 需要 的 用 户 名 和 主机 名 的 正则 表达 式 。 主 机 名 ， 例 如 regex. 
info 或 者 www.oreilly .com， 它 们 由 点 号 分 隔 ， 以 “com ”、'edu ”、'info’、‘uk” 或 者 
其 他 事先 规定 的 字符 序列 结尾 。 匹 配 E-mail 地 址 的 最 简单 的 办 法 是 w+\@\w+ (\.\w+) +, 
用 "w+ts 来 匹配 用 户 名 ,以 及 主机 名 的 各 个 部 分 。 不 过 ,实际 应 用 起 来 ,我 们 需要 考 虚 得 更 
周到 一 些 。 用 户 名 可 以 包含 点 号 和 连 字符 《虽然 用 户 名 不 会 以 这 两 种 字符 开头 )。 所 以 ， 我 
们 不 应 该 使 用 \w+,， 而 应 该 用 \w[- .\w] *i。 这 就 保证 用 户 名 以 仆 w 开 头 , 后 面 的 部 分 可 以 
包括 点 号 和 连 字 符 。( 请 注意 ， 我 们 在 字符 组 中 把 连 字 符 排 在 第 一 位 ， 这 样 就 确保 它们 被 作 
为 连 字符 ， 而 不 是 用 来 表示 范围 。 对 许多 流派 来 说 ，. - \w 表示 的 范围 肯定 是 错误 的 ， 它 会 
产生 一 个 随机 的 字母 、 数 字 和 标点 符号 的 集合 ， 具 体 取 决 于 程序 和 计算 机 所 用 的 字符 编码 。 
Perl 能 够 正确 处 理 . -\w， 但 是 使 用 连 字 符 时 多 加 小 心 是 个 好 习惯 。) 
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主机 名 的 匹配 要 复杂 一 些 ， 因 为 点 号 只 能 作 分 隔 符 ， 也 就 是 说 两 个 点 号 之 间 必 须 有 其 他 字 
符 。 所 以 在 前 面 那 个 简单 的 正则 表达 式 中 ， 主 机 名 部 分 用 、\w+ (\. \we) + 而 不 是 '[\w.]+1。 
后 者 会 匹配 “. .x. . 。 但 是 ， 即 使 是 前 者 ， 也 能 够 匹配 “Artichokes 481 .00" ， 所 以 我 们 
需要 更 细心 一 些 。 


一 个 办 法 是 给 出 末尾 部 分 的 可 能 序列 ， 跟 在 \w+(\.\w+)*\. (comledulinfo), 之 后 (实际 
上 上， 多 选 分 支 应 该 是 gomledulgovlint|lmillnet|org|biz|infolname|museum|coop| 
aerol [a-z] [a-z], 不 过 为 了 简洁 起 见 , 我 在 这 里 只 列 出 几 项 )。 这 样 就 能 容许 开头 的 w+ 
部 分 ， 然 后 是 可 能 出 现 的 .\w+, 部 分 ， 最 后 才 是 我 们 指定 的 可 能 结尾 。 


实际 上 \w 也 不 是 很 合适 。\wi 能 够 匹配 ASCH 字母 和 数字 , 这 没有 问题 , 但 有 些 系统 中 Ww 
能 够 匹配 非 ASCII 字母 , 例如 a、c、z 、&。 在 大 多 数 流派 中 ， 下 画 线 也 是 可 以 的 。 但 这 些 
字符 都 不 应 该 出 现在 主机 名 中 。 所 以 ,我 们 或 许 应 该 用 '[a-zA-z0-9],, 或 者 是 '[a-z0-9]) 
加 上 /i 修饰 符 (进行 不 区 分 大 小 写 的 匹配 )。 主 机 名 可 能 包括 连 字 符 ， 所 以 我 们 用 
‘{-a-20-9]) (再 次 注意 ， 连 字符 应 该 放 在 第 一 位 )。 于 是 我 们 得 到 用 来 匹配 主机 名 的 


‘[-a-z0-9]+(\.[-a-z0-9]+)*\. (comledu|info)J, 


无 论 使 用 什么 正则 表达 式 ， 记 住 它们 应 用 的 情境 都 是 很 重要 的 。' [-a-z0-9]+(\. 
[-a-z0-9]+)*\. (comledulinfo) 1 这 个 正则 表达 式 本 身 ， 可 以 匹配 “run C 
Startup.command at startup ， 但 是 把 它 置 入 程序 运行 的 环境 中 ， 我 们 就 能 确认 ， 它 会 
匹配 我 们 期 望 的 文本 ， 而 忽略 不 期 望 的 内 容 。 实 际 上 ， 我 会 把 它 放 入 之 前 提 到 的 。 


$text =~ s{\b (username regex\ @hostname regex) \b}{<a href=“mailto:$1">$l</a>)gi; 


(这 里 用 了 ef{…}{…} 分 隔 符 ， 以 及 /i), 但 这 样 就 必须 折 行 。 当 然 ，Perl 不 关心 这 个 问题 ， 
也 不 关心 表达 式 是 否 美观 ， 但 我 关心 。 所 以 我 要 介绍 /x 修饰 符 ， 它 容许 我 们 重新 编排 这 个 
HEA: 


$text =~ Bf 
\b 
# 把 邮件 地 址 存 入 变量 S1 .… 
( 
username regex 
\@ 
hostname regex 
) 
\b 
}{<a href=*mailto:$1">$l</a>}gix; 


啊 哈 ， 现 在 看 起 来 大 不 一 样 了 。 语 句 末尾 出 现 了 /x (在 /g 和 /i 之 后 )， 它 对 这 个 正则 表达 


www.TopSage.com 


使 用 正则 表达 式 修改 文本 73 


式 做 了 两 件 简单 但 有 意义 的 事情 。 首 先 ， 大 多 数 空白 字符 会 被 忽略 ， 用 户 能 够 以 “宽松 排 
列 (free-format)” 编 排 这 个 表达 式 ， 增 强 可 读 性 。 其 次 ， 它 容许 出 现 以 # 开 头 标记 的 注释 。 


要 指出 的 是 , 加 上 /x 之 后 , 表达 式 中 的 大 部 分 空格 符 变 为 “忽略 自身 ”元 字符 (“ignore me” 
metacharacter) , 而 # 的 意思 是 “ 忽 赂 该 字符 及 其 之 后 第 一 个 换行 符 之 前 的 所 有 字符 ”( 字 111)。 
它们 不 是 作为 字符 组 内 部 的 元 字符 (也 就 是 说 ， 即 便 使 用 了 /x， 这 些 字符 组 也 不 是 “随意 
编排 ”的 ) 来 对 待 的 ， 而 且 ， 同 其 他 元 字符 一 样 ， 如 果 和 希望 把 它们 作为 普通 字符 来 处 理 ， 
也 可 以 对 它们 加 以 转 义 。 当 然 ， \sj 总 是 能 够 匹配 空白 字符 ， 例如 m/<a \s+ href=..>/x。 


请 注意 ，/x 只 能 应 用 于 正则 表达 式 本 身 ， 而 不 是 replacement 字符 串 。 同 样 ， 即 使 我 们 现在 
使 用 的 是 st.…}{..} 的 格式 ,修饰 符 接 在 最 后 的 “}” 之 后 (例如 “}x' ), 但 是 在 文中 我 们 仍 
然 使 用 “/x” 代 表 “ 修 饰 符 x”。 


综合 起 来 


现在 ， 我 们 可 以 把 用 户 名 、 主 机 名 的 部 分 ， 以 及 之 前 的 开发 成 果 结 合 起 来 ， 得 到 相对 完整 
的 程序 : 


undef $/; # 进入 “文件 读 取 ”模式 
$text =<>; # 读 入 命令 行 中 指定 的 第 一 个 文件 名 
$text =~ 8/&/&amp;/g; # 把 基本 的 HTML ... 
$text =~ 8/</&lt;/g; # .. FH &, < 和 >... 
$text =~ B/>/&gt;/g; # .. #47 HTML 转 义 
$text =~ 8/%*\s*$/<p>/mg; # 划分 段落 
# 转 措 为 链接 形式 .. 
$text =~ 8{ 
\b 
# 把 地 址 保存 到 S1 ... 
( 
\w([-. \w) * # username 
\@ 


{[-a-z0-9]+(\. [-a-z0-9]+)*\. (comledulinfo) # hostname 
) 
\b 
}{<a href=“mailto:$1">$1</a>)gix; 


print $text; # 最 后 ， 显 示 HTML 文本 
所 有 的 正则 表达 式 都 应 用 于 同一 个 包含 多 行文 本 的 字符 串 ， 需 要 注意 的 是 ， 只 有 用 于 划分 


段落 的 正则 表达 式 才 使 用 /m 修饰 符 , 因为 只 有 那个 正则 表达 式 用 到 了 “和 Si 对 其 他 正则 
表达 式 使 用 /m 并 不 会 产生 影响 〈 只 会 令 看 程序 的 人 迷惑 )。 


E 
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把 HITP URL 转换 为 链接 形式 


最 后 ， 我 们 需要 识别 HTTP URL， 将 它 变 为 链接 形式 。 也 就 是 说 把 “http;/Avww.yahoo.com” 


转变 为 <a*href=http://www.yahoo.com/>http://www.yahoo.com/</a>。 


HTTP URL 的 基本 形式 是 httpyhostname/path， 其 中 的 /path 部 分 是 可 选 的 。 于 是 我 们 得 到 
下 面 的 形式 : 


$text =~ af{ 
\b 


# 将 URL 保存 至 $1 .… 
( 


http:// hostname 
( 

/ path 
)? 


) 
}{<a href="$1">$1</a>}gix; 


主机 部 分 的 匹配 可 以 使 用 在 E-mail 例子 中 用 过 的 子 表达 式 。URL 的 path 部 分 可 以 包括 各 种 
字符 ， 在 前 一 章 中 我 们 使 用 的 是 '[-a-z0-9_:@&g?=+,.!1/~*'%$]*) (25)， 它 包括 了 除 空 
白字 符 、 控 制 字符 和 <>() {) 之 外 的 大 多 数 ASCII 字符 。 


在 使 用 Pel 解决 这 个 问题 之 前 ， 我 们 必须 对 e 和 进行 转 义 。 同 样 ， 我 会 在 稍 后 讲解 原因 
(77)。 现 在 ,我们 来 看 hostname 和 path 部 分 : 
$text =~ s{ 
\b 
# 将 URD RAES1 ... 
( 
http:// [-a-z0-9]+(\.[-a-z0-9]+)*\. (comledulinfo) \b # hostname 
( 
/ [-a-z0-9_:\@&?=+,.!/~*'S\S)* # path 不 一 定 会 出 现 


)? 
) 
}{<a href="$1">$1</a>}gix; 


你 可 能 注意 了 ,在 path 之 后 没有 \b, 因 为 URL 之 后 通常 都 是 标点 符号 ,例如 本 书 在 O'Reilly 
的 URL 是 : 


http:/Awww.oreilly.com/catalog/regex3/ 
如 果 末尾 有 Nbi, 就 不 能 匹配 。 


也 就 是 说 ， 在 实际 中 ， 我 们 需要 对 表示 URL 结束 的 字符 做 一 些 人 为 的 规定 。 比 如 下 面 的 文 
本 : 


Read “odd” news at http://dailynews.yahoo.com/h/od, and 


maybe some tech stuff at http://www.slashdot.com! 


if 
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现在 正则 表达 式 能 够 匹配 标注 出 的 文本 了 , 当然 末尾 的 标点 显然 不 应 该 作为 URL 的 一 部 分 。 
在 匹配 英文 文本 中 的 URL 了 时， 末尾 的 '[.,?!], 是 不 应 该 作为 URL 的 一 部 分 的 (这 并 不 是 
什么 规定 ， 而 是 我 的 经 验 ， 而 且 大 多 数 时 候 都 有 效 )。 这 很 简单 ， 只 需要 在 表达 式 的 末尾 添 
加 一 个 表示 “ 除 '{.,?!] 之 外 的 任何 字符 ”的 否定 逆序 环视 ,'(?<![.,?1]), 即 可 。 结 果 就 
是 ， 在 我 们 匹配 到 作为 URL 匹配 的 文本 之 后 ， 逆 序 环视 会 反 过 头 来 看 一 眼 ， 保 证 最 后 的 字 
符 符合 要 求 。 如 果 不 符合 要 求 ， 引 擎 就 会 重新 检查 作为 URL 的 字符 申 ， 直 到 最 终 符合 要 求 
为 止 。 也 就 是 强迫 去 掉 最 后 的 标点 ， 让 最 后 的 逆序 环视 匹配 成 功 (在 第 5 章 我 们 会 看 到 另 
一 个 解决 办 法 了 206)。 


插入 之 后 ， 我 们 得 到 了 完整 的 程序 : 


undef $/; # 进入 “文件 读 取 ”模式 
$text = <>; # 读 入 命令 行 中 指定 的 第 一 个 文件 


$text =~ s/&/&amp;/g; # 转换 基本 的 HTML ... 
$text =~ s/</&lt;/g; # .. FFF &、< 和 >... 
$text =~ s/>/&gt;/g; # .. #47 HTML # RX 
$text =~ s/*\s*$/<p>/mg; # 划分 段落 
# 将 E-mail 地 址 转 撞 为 链接 形式 .… 
$text =~ st{ 
\b 
# 把 地 址 保存 到 $1 .… 
( 
\w[(-.\w]* # username 
\@ 


{-a-z0-9]+(\. [-a-z0-9]+)*\. (com|edulinfo) # hostname 
) 
\b 
}{<a href=“mailto:$1%>$1</a>}gix; 


# FF HTTP URL #R % 4448 & ... 
$text =~ s{ 
\b 
# 将 URL 保存 至 $1 .… 
( 
http:// [-a-z0-9]+{\.[-a-20-9]+)*\. (comledulinfo) \b # hostname 
( 
/ [-a-z0-9_:\@&?=4+,.!/~*'S\$]* # path 不 一 定 会 出 现 
(?<!1(.,?1]) # 不 能 以 [.,?!] 结 是 


}? 


) 
}{<a href=*$1*>$1</a>}gix; 
print $text; # 最 后 ， 显 示 结 果 
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构建 正则 表达 式 库 


请 注意 ， 在 这 两 个 例子 中 ， 我 们 使 用 同样 的 正则 表达 式 来 匹配 主机 名 ， 也 就 是 说 ， 如 果 要 
修改 匹配 主机 名 的 表达 式 ， 我 们 希望 这 种 修改 会 同时 对 两 个 例子 生效 。 我 们 可 以 在 程序 中 
多 次 使 用 变量 $SHostnameRegex， 而 不 是 把 这 个 表达 式 写 在 各 处 ， 杂 乱 无 绪 : 


$HostnameRegex = dr/[-a-z0-9]+(\.[-a-z0-9]+)*\. (comledu|info)/i; 


# 将 E-mail 地 址 转换 为 链接 形式 .… 


Stext =~ s{ 

\b 

+H He bh RAE $1 ... 

( 
\w[-.\w)] * # username 
NG 
$HostnameRegex # hostname 

) 

\b 


}{<a href="“mailto:$1%>$1</a>}gix; 


# 将 HTTP URL 转 摘 为 链接 形式 … 
$text =~ S{ 

\b 

# Capture the URL to $1 .. 


http:// §$HostnameRegex \b # hostname 
( 
/ [(-a-z0-9_:\@&?=+, .!/~*'S\$]* # path 不 一 定 会 出 现 
(2<1[.,79]) # REAM (., 2!) SA 


) ? 
href=*$1*%>$1</a>}gix; 

第 一 行使 用 了 Perl 的 ar 操作 符 。 它 与 mn 和 s 操作 符 类 似 ， 接收 一 个 正则 表达 式 (例如 ,使 
用 qr/.…/， 类 似 使 用 m/../ 和 s/…/…/) ， 但 并 不 马上 把 这 个 正则 表达 式 应 用 到 某 段 文本 中 进 
行 匹配 ， 而 是 由 这 个 表达 式 生 成 为 一 个 “regex 对 象 (regex object) “， 作 为 变量 保存 。 之 
后 我 们 就 能 使 用 这 个 对 象 。( 在 本 例 中 ， 我 们 用 变量 $HostnameRegex 来 保存 这 个 变量 ， 供 
后 面 两 个 正则 表达 式 使 用 。) 这 样 做 非常 方便 ， 因 为 程序 看 起 来 非常 清楚 。 此 外 ， 我 们 的 匹 
配 主 机 名 的 正则 表达 式 只 存在 一 个 “ 主 源 (main source)”, 这 样 无 论 在 哪里 需要 匹配 主机 名 ， 
都 可 以 直接 使 用 它 。 第 6 章 (7277) 还 有 关于 构建 这 种 “正则 表达 式 库 ” 的 例子 ， 具 体 讲 
解 见 第 7 章 (7303), 


其 他 的 语言 也 提供 了 创建 正则 表达 式 对 象 的 方法 , 下 一 章 我 们 会 简要 介绍 若干 语言 , 而 Java 
和 .NET 则 在 第 8 和 第 9 章 详细 讲解 。 


ill 
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为 什么 有 时 候 $ 和 @ 需 要 转 义 


你 可 能 注意 到 了 ,，“$” 符 号 既 可 以 作为 表示 字符 串 结束 的 元 字符 ， 又 可 以 用 来 标记 变量 。 
通常 ，“$” 的 意思 是 很 明确 的 ， 但 如 果 在 字符 组 内 部 ， 情 况 就 有 些 麻 烦 ， 因 为 此 时 它 不 能 
用 来 表示 字符 串 的 结束 位 置 ， 只 能 在 转 义 之 后 ， 用 来 标记 变量 。 在 转 义 之 后 ， $ ”就 只 是 
字符 组 的 一 部 分 。 而 这 正 是 我 们 所 要 的 ， 所 以 我 们 需要 在 URL 匹配 的 正则 表达 式 中 对 它 进 
行 转 义 。 

e 的 情况 与 之 类 似 。Perl 用 e 表 示 数 组 名 ， 而 Perl 中 的 字符 串 或 正则 表达 式 中 也 容许 出 现 数 
组 变量 。 如 果 我 们 希望 在 正则 表达 式 中 使 用 e 字 符 , 就 需要 进行 转 义 ,避免 把 它 作为 数组 名 。 


一 些 语言 (Java、VB.NET、C、C#、Emacs、awk 等 ) 不 支持 变量 插值 (variable interpolation) 。 
有 些 语言 (例如 Perl, PHP, Python, Ruby 和 Tcl) 支持 变量 插值 ， 但 是 方法 各 有 不 同 。 我 
们 会 在 下 一 章 详细 讲解 (101)。 


回 到 单词 重复 问题 


That Doubled-Word Thing 


我 希望 第 1 章 提 到 的 单词 重复 问题 能 够 引发 读者 对 于 正则 表达 式 的 兴趣 。 在 本 章 的 开头 我 
给 出 了 一 堆 难 懂 的 代码 ， 将 其 作为 解法 之 一 : 


S/ = *.\n*; 
while (<>) { 
next if !s/\b([a-z)+) ((?:\81<[*4>]4+>)+) (\1\b) /\e[7mS1\e[(mS2\e[7m$3\e[m/ig; 
s/*(?:04\e)*\n)+//mg; # 删除 所 有 未 标记 的 行 
s/*/$ARGV: /mg; # 在 行 首 增加 文件 名 
print; 
} 


对 Perl 有 了 些 了 解 之 后 ， 我 希望 读者 至 少 能 够 看 懂 常 规 的 正则 表达 式 应 用 一 一 其 中 的 <>， 
三 个 s/…/…/， 以 及 print。 不 过 ， 其 他 的 部 分 仍然 很 难 。 如 果 你 关于 Perl 的 知识 全 部 来 自 
本 章 (而 且 关 于 正则 表达 式 的 知识 都 来 自 之 前 的 章节 ), 这 个 例子 可 能 会 超出 你 的 理解 能 力 。 


不 过 ， 如 果 细 致 考察 起 来 ， 我 认为 这 个 正则 表达 式 并 不 复杂 。 在 重读 程序 之 前 ， 我 们 不 妨 
回 过 头 看 看 第 1 页 的 程序 规格 要 求 ， 并 尝试 运行 一 次 : 


% perl -w FindDbl ch01.txt 

ch01.txt: check for doubled words (such as $33 èë), a common problem with 
ch01.txt: * Find doubled words despite capitalization differences, such as with ‘$ë 
ch01 .txt :WW', as well as allow differing amounts of whitespace (space, tabs, 
ch01.txt: /\<(1,000,000imillion | iii )/. But alternation can't be 
ch0l.txt: of this chapter. If you knew MW BMS specific doubled word to find (such 





wo 
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先 来 看 这 个 Perl 的 解法 ， 然 后 我 们 会 看 到 一 个 Java 的 解法 ， 接 触 另 一 种 使 用 正则 表达 式 的 
思路 。 现 在 列 在 下 面 的 程序 使 用 了 8 {regex} (replacement) modifier 的 替换 形式 ， 同 时 使 用 了 
/x 修饰 符 来 提高 清晰 程度 (空间 更 充裕 的 时 候 ， 我 们 使 用 更 易 懂 的 “next unless’ hk 
‘next if! )。 除 去 这 些 ， 它 与 本 章 开 头 的 程序 其 实 就 是 一 模 一 样 的 。 


示例 2-3: 用 Perl 处 理 重复 单词 


$/ = *.\n"; OF 设 定 特殊 的 “ 块 模式 ”(*chunk-mode") ; 一 块 文本 的 终结 为 点 号 和 换 
行 桂 的 结合 体 
while (< >) 四 
{ 
next unless 8{@# (下 面 是 正则 表达 式 ) 

### 匹配 一 个 单词 : 
\b # 单词 的 开始 位 置 .… 
( [a-z}+ ) # 把 读 取 的 单词 存储 至 $1 (和 \1) 


### 下 面 是 任意 多 的 空白 字符 和 /或 tag 
( # 把 空白 保存 到 $2 


(?: # (使 用 非 捕获 型 括号 ) 
\S # 空白 字 柑 (包括 换行 桂 ， 这 样 非常 方便 ) 
| # 或 者 是 
<[^>]+> # <TAG> 形 式 的 tag 

) + # 至 少 需要 出 现 一 次 ， 多 次 不 受 限 制 


) 


ttt 现在 再 次 匹配 第 一 个 单词 : 

(\1\b) # Nb 保证 用 来 避免 嵌 套 单词 的 情况 ,保存 到 $3 
# (正则 表达 式 结束 ) 
} 


# 上 面 是 正则 表达 式 . 下 面 是 replacement FHF, REAWRH, /i, /g 和 /x 
{\e[7m$1\e[m$2\e[7m$3\e[m)igx; © 

s/*(2?:(*\e]*\n)+//mg; © # 去 掉 所 有 未 标记 的 行 

Be/^/SRRGV: /mg; © # 在 每 行 开头 加 上 文件 名 

print; 


} 
这 小 段 程序 中 出 现 了 许多 我 们 设 见 过 的 东西 。 下 面 我 会 简要 地 介绍 它们 以 及 背后 的 逻辑 ， 
不 过 我 建议 读者 查看 Perl 的 man page 了 解 细节 (如果 是 正则 表达 式 相 关 的 细节 ， 可 以 查阅 


第 7 章 )。 在 下 面 的 描述 中 ,“ 神 奇 ”(magic) 的 意思 是 “这 里 用 到 了 读者 可 能 不 熟悉 的 Perl 
的 特性 ”。 


@ ”因为 单词 重复 问题 必须 应 付 单词 重复 位 于 不 同行 的 情况 ， 我 们 不 能 延续 在 E-mail 的 例 
子 中 使 用 的 普通 的 按 行 处 理 的 方式 。 在 程序 中 使 用 特殊 变量 $/ 〈 没 错 ， 这 确实 是 一 个 
变量 ) 能 使 用 一 种 神奇 的 方式 ， 让 <> 不 再 返回 单行 文字 ， 而 返回 或 多 或 少 的 一 段 文 字 。 
返回 的 数据 仍然 是 一 个 字符 串 ， 只 是 这 个 字符 串 可 能 包含 多 个 逻辑 行 。 


www.TopSage.com 


使 用 正则 表达 式 修 改 文本 79 


O 你 是 否 注意 到 , <> 没 有 值 赋 给 任何 变量 ? 作为 while 中 的 条 件 使 用 时 ,<> 的 神奇 之 处 在 
于 ， 它 能 够 把 字符 串 的 内 容 赋 给 一 个 特殊 的 默认 变量 ( 注 6)。 该 变量 保存 了 s/../../ 
和 print 作用 的 默认 字符 串 。 使 用 这 些 默 认 变量 能 够 减少 元 余人 代码， 但 Perl HERA 
易 看 明白 ， 所 以 我 还 是 推荐 ， 在 你 习惯 之 前 ， 把 程序 写 得 更 清楚 一 些 。 


© 如 果 没 有 进行 任何 替换 ， 那 么 替换 命令 之 前 的 next unless 会 导致 Perl 中 断 处 理 当 前 
字符 串 〈 转 而 开始 下 一 个 字符 串 )。 如 果 在 当前 字符 串 中 没有 找到 单词 重复 ， 也 就 不 必 
进行 下 一 步 的 工作 。 


© replacement 字符 串 包 含 的 就 是 “$1$2$3”， 加 上 插入 的 ANSI 转 义 序列 ， 把 两 个 重 全 的 
词 标记 为 高 亮 , 中 间 的 部 分 则 不 标记 高 亮 。 转 义 序列 \e{7m 用 于 标注 高 亮 的 开始 ，\e [m 
用 于 标注 高 亮 的 结束 (在 Perl 的 正则 表达 式 和 字符 串 中 ，\e 用 来 表示 ASCI 的 转 义 字 
符 ， 该 字符 表示 之 后 的 字符 为 ANSI 转 义 序列 )。 


仔细 看 看 正则 表达 式 中 的 那些 括号 ,你 会 发 现 “$1$2$3” 表 示 的 完全 就 是 匹配 的 文本 。 
所 以 ， 除了 添加 转 义 序列 之 外 ， 整 个 替换 命令 并 没有 进行 任何 实质 修改 。 


我 们 知道 $1 和 $3 匹配 的 是 同样 的 文本 (这 也 是 整个 程序 的 意义 所 在 !)， 所 以 在 
replacement 中 只 用 一 个 也 是 可 以 的 。 不 过 ， 因 为 这 两 个 单词 的 大 小 写 可 能 有 区 别 ， 我 
用 了 两 个 变量 。 


人 @ 这 个 字符 串 可 能 包括 多 个 逻辑 行 ， 不 过 在 替换 命令 标记 了 所 有 的 重复 单词 之 后 ， 我 们 希 
望 只 保留 那些 包含 转 义 字符 的 逻辑 行 。 去 掉 不 包含 转 义 字符 的 逻辑 行 之 后 , 留 下 的 就 是 
字符 串 中 我 们 需要 处 理 的 行 。 因 为 我 们 在 替换 中 使 用 的 是 增强 的 行销 点 匹配 模式 (/m 
修饰 符 ), 正则 表达 式 “([^\el *\n)+1 能 够 找 出 不 包含 转 义 字符 的 逻辑 行 。 用 这 个 表达 
式 来 替换 掉 所 有 不 需要 处 理 的 行 。 结 果 留 下 的 只 是 包含 转 义 字符 的 逻辑 行 , 也 即 那些 包 
含 单词 重复 的 行 〈 注 7)。 


© 变量 SARGV 提供 了 输入 文件 的 名 字 。 结 合 /m 和 /g， 这 个 替换 命令 会 把 输入 文件 名 加 到 
留 下 的 每 一 个 逻辑 行 的 开头 。 多 酷 ! 


注 6: 默认 变量 是 $_ (是 的 ， 这 也 是 一 个 变量 )。 它 可 以 作为 多 个 函数 和 操作 符 的 默认 操作 对 象 。 
注 7: 在 这 里 我 们 假设 输入 的 文本 中 不 包含 转 义 字 和 村。 否则 程序 不 能 正常 工作 .。 
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最 后 , print 会 输出 字符 串 中 留 下 的 逻辑 行 以 及 转 义 字符 。while 循环 对 输入 的 所 有 字符 串 
重复 处 理 (每 次 处 理 一 段 )。 


更 深入 一 点 : 运算 符 、 函 数 和 对 象 


我 之 前 已 经 强调 过 ， 在 本 章 我 以 Perl 作为 工具 来 讲解 概念 。Perl 的 确 是 一 种 有 用 的 工具 ， 
但 我 想 要 强调 的 是 ， 这 个 问题 利用 其 他 语言 的 正则 表达 式 解 决 起 来 也 很 容易 。 


同样 ， 因 为 Perl 具有 与 其 他 高 级 语言 不 同 的 独特 风格 ， 讲 解 这 些 概念 更 加 容易 。 这 种 独特 
风格 就 是 ， 正 则 表达 式 是 “基础 级 别 (first-class)” 的 。 也 就 是 说 ， 基 本 的 运算 符 可 以 直接 
作用 于 正则 表达 式 ， 就 好 像 + 和 -作用 于 数字 一 样 。 这 样 减轻 了 使 用 正则 表达 式 的 “语法 包 
HR” (syntactic baggage), 


其 他 许多 语言 并 没有 这 样 的 特性 。 因 为 第 3 章 中 提 到 的 原因 (93)， 许 多 现代 语言 坚持 提 
供 专 用 的 函数 和 对 象 来 处 理 正则 表达 式 。 例 如 ， 可 能 有 一 个 函数 接收 表示 正则 表达 式 的 字 
符 串 ， 以 及 用 于 搜索 的 文本 ， 然 后 根据 正则 表达 式 能 否 匹配 该 文本 ， 返 回 真 值 或 假 值 。 更 
常见 的 情况 是 ， 这 两 个 功能 (首先 对 一 个 作为 正则 表达 式 的 字符 串 进 行 解释 (interpretion) , 
然后 把 它 应 用 到 文本 当中 ) 被 分 割 为 两 个 或 更 多 分 离 的 函数 , 就 像 下 一 页 的 Java 代码 一 样 。 
这 些 代码 使 用 Javal.4 以 后 作为 标准 的 java.util. regex $. 


在 程序 的 上 部 我 们 看 到 ， 在 Perl 中 使 用 的 3 个 正则 表达 式 在 Java 中 作为 字符 串 传递 给 
Pattern.compile 程序 。 通过 比较 我 们 发 现 , Java 版 本 的 正则 表达 式 包 含 了 更 多 的 反 斜 线 ， 
原因 是 Java 要 求 正 则 表达 式 必 须 以 字符 申 方 式 提供 。 正 则 表达 式 中 的 反 斜 线 必 须 转 义 ， 以 
避免 Java 在 解析 字符 串 时 按照 自己 的 方式 处 理 它 们 。 


我 们 还 应 该 注意 到 ， 正 则 表达 式 不 是 在 程序 处 理 文本 的 主体 部 分 出 现 ， 而 是 在 开头 的 初始 
化 部 分 出 现 的 。Pattern.compile 国 数 所 作 的 仅仅 是 分 析 这 些 作 为 正 刚 表达 式 的 字符 串 ， 
构建 一 个 “已 编译 的 版 本 (compiled version)”, WIRES Pattern 变量 (例如 regex1), 
然后 ， 在 处 理 文本 的 主体 部 分 ， 已 编译 的 版 本 通过 regex1l .matcher (text) 应 用 到 文本 之 
上 ， 得 到 的 结果 用 于 替换 。 同 样 ， 我 们 会 在 下 一 章 探究 其 中 的 细节 ， 在 这 里 我 们 只 需要 了 
解 ， 在 学 习 任 何 一 门 支持 正则 表达 式 的 语言 时 ， 我 们 需要 注意 两 点 : 正则 表达 式 的 流派 ， 
以 及 该 语言 运用 正则 表达 式 的 方式 。 
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示例 2-4: 用 Java 解决 重复 单词 的 问题 


import java.io.*; 
import java.util.regex. Pattern; 
import java.util.regex.Matcher; 


public class TwoWord 


{ 


public static void main(String [] args) 


} 


{ 
Pattern regexl = Pattern.compile( 
"\\b( [a-z] +) (C?=\\BIN\<[4>] 4\\>)4) (\\1\\b)”, 
Pattern.CASE_INSENSITIVE) ; 
String replacel = “\033[7m$1\033 [m$2\033 (7m$3\033([m’*; 
Pattern regex2 = Pattern.compile(“4(?:[(4\\e])*\\n)+", Pattern.MULTILINE) ; 
Pattern regex3 = Pattern.compile(“*((*\\n)+)%, Pattern.MULTILINE) ; 


// MPODA MED AK Mik FF te F A... 
for (int i = 0; i < args.length; i++) 
{ 
try { 
BufferedReader in = new BufferedReader (new FileReader(args[il)); 
String text; 


// For each paragraph of each file.... 
while ((text = getPara(in)) != null) 
{ 
// 应 用 3 条 替换 规则 
text = regexl.matcher (text) .replaceAll(replacel); 
text = regex2.matcher(text).replaceAll(**); 
= regex3.matcher(text).replaceAll(args{i] + “: $1”); 


// 显示 结果 
System.out.print (text) ; 
} 
}eatch (IOException e} { 


System.err.printin(“can't read [*+args[i]+"]: ”+ e.getMessage({)); 
} 


// 用 于 读 入 “一 段 ” 文 本 的 子 程序 


static String getPara(BufferedReader in) throws java.io.IOException 


{ 


StringBuffer buf = new StringBuffer(); 
String line; 


while ((line = in.readLine({)) != null && 
(buf.length() == 0 || line.length() != 0)) 
{ 
buf.append(line + “\n"); 
} 
return buf.length() == 0 ? null : buf.toString(); 
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正则 表达 式 的 特性 和 流派 概览 


Overview of Regular Expression Features and Flavors 


现在 我 们 稍微 找到 点 感觉 了 ， 也 见识 了 若干 使 用 正则 表达 式 的 工具 软件 ， 你 可 能 觉得 ， 该 
坐 下 来 潜心 研究 研究 如 何 使 用 它们 了 。 不 过 ， 比 较 比 较 第 1 章 中 不 同 版 本 的 egrep， 或 是 前 
一 章 中 Perl 程序 和 Java 程序 的 区 别 就 会 发 现 ， 工 具 不 同 ， 正 则 表达 式 的 写法 和 用 法 都 有 很 
大 的 不 同 。 


在 某 种 特定 的 宿主 语言 或 工具 软件 中 使 用 正则 表达 式 时 ， 主 要 有 3 个 问题 值得 注意 : 
。 ”支持 的 元 字符 ， 以 及 这 些 元 字符 的 意义 = ,这 通常 称 为 正则 表达 式 的 “流派 (flavor)”。 


。 ”正则 表达 式 与 语言 或 轩辕 的 “ 交 驯 -Sinlertice) 方式 。 警 如 如 何 进行 正则 表达 式 操作 ， 
sir mee, ARN 文本 3 









| ayes OAREN es 
ss Sm > PU EHS. EDIE Ee 
对 应 的 就 是 第 32 页 的 元 字符 列 


= K l tn 
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正则 表达 式 与 宿主 语言 的 交互 方式 (interface) 也 很 重要 。 交 互 方式 的 一 部 分 内 容 起 到 装饰 
性 作用 ， 描 述 对 应 的 编程 语言 中 正则 表达 式 的 应 用 规则 。 另 一 部 分 内 容 定义 功能 ， 它 们 决 
定 了 语言 所 能 支持 的 操作 ， 以 及 操作 的 难 易 程度 。 对 应 于 汽车 的 例子 ， 它 相当 于 汽车 与 我 
们 和 我 们 的 生活 相 “ 结 合 ”的 程度 。 某 些 问 题 可 能 是 装饰 性 的 ， 例 如 加 油 口 在 车 的 哪 一 侧 ， 
车 窗 是 否 能 电动 升降 。 其 他 问题 可 能 重要 些 ， 例 如 是 手动 变速 还 是 自动 变速 。 还 有 些 关于 
功能 的 问题 .你 的 车 怎样 开 进 车 库 ? 它 能 装 得 下 一 个 大 号 床 垫 吗 ?如 果 是 滑雪 板 呢 ?或 者 
EAKA? (以 及 这 些 人 如 何 进 出 ， 在 这 个 问题 上 四 门 车 显然 比 两 门 车 有 优势 )。 宜 传 册 会 
介绍 一 些 此 类 信息 ， 不 过 你 可 能 需要 阅读 封底 的 小 字 才 能 了 解 所 有 细节 。 


最 后 需要 关注 的 是 引擎 ， 以 及 引擎 驱动 车 轮 的 原理 。 汽 车 的 类 比 在 这 里 不 适用 ， 因 为 大 家 
都 理解 汽车 发 动机 工作 的 基本 知识 : 如 果 是 汽油 发 动机 ， 人 们 就 不 会 往 油 箱 里 加 柴油 。 如 
果 是 手动 变速 ， 他 们 不 会 忘记 踩 离合 器 。 但 是 ， 在 正则 表达 式 的 世界 中 ， 即 使 是 一 些 最 基 
本 的 知识 : 例如 正则 引擎 的 匹配 原理 ， 以 及 该 原理 对 表达 式 的 调 校 和 使 用 的 影响 ， 通 常 都 
没有 文档 介绍 。 但 是 ， 这 些 细节 对 实际 使 用 正则 表达 式 又 极其 重要 ， 所 以 我 们 会 在 下 一 章 
用 整 章 的 篇 幅 来 讲解 。 


本 章 的 内 容 


如 标题 所 示 ， 这 一 章 讲解 正则 表达 式 的 特性 和 流派 。 它 介绍 了 经 常 使 用 的 元 字符 ， 以 及 在 
具体 的 工具 软件 中 使 用 正则 表达 式 的 方式 。 这 些 内 容 涵盖 了 上 文 提 到 的 前 面 两 点 。 第 三 点 
一 一 正则 引擎 是 如 何 工 作 的 ， 这 些 工作 原理 有 什么 实际 意义 一 一 会 在 下 面 的 几 章 中 涉及 。 


关于 本 章 ， 我 要 说 的 一 点 是 ， 它 并 不 能 告诉 你 某 种 工具 软件 中 的 正则 表达 式 提 供 了 哪些 特 
性 ， 也 不 会 教育 你 如 何 使 用 在 提 过 的 各 种 工具 软件 和 编程 语言 中 运用 正则 表达 式 。 相 反 ， 
它 的 上 且 的 是 ， 提 供 关 于 正则 表达 式 本 身 和 使 用 它 的 工具 软件 的 完整 图 景 。 如 果 我 们 与 世 隔 
绝 ， 只 使 用 一 件 工具 ， 或 许 不 需要 关心 其 他 的 工具 (或 者 是 该 工具 的 其 他 版 本 ) 有 什么 差 
异 。 但 现实 情况 并 非 如 此 ， 所 以 了 解 我 们 所 用 工具 的 技术 渊源 ， 或 许 能 够 提供 有 趣 而 又 有 
价值 的 启示 。 


AS 
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在 正则 的 世界 中 漫步 


A Casual Stroll Across the Regex Landscape 


我 喜欢 在 故事 的 开头 讲 讲 某 些 正则 表达 式 的 流派 以 及 相应 程序 的 演变 过 程 。 所 以 ， 请 准备 
一 杯 你 最 喜欢 的 热 (或 凉 的 ) 饮料 ， 放 轻松 ， 我 们 一 起 来 看 看 今天 的 正则 表达 式 背 后 古怪 
的 发 展 史 。 这 样 做 是 为 了 让 你 全 面 了 解 正则 表达 式 ， 培 养 追 问 “ 为 什么 会 如 此 ”的 习惯 。 
我 们 为 有 兴趣 的 读者 准备 了 一 些 脚 注 ， 不 过 大 部 分 脚注 只 能 算是 博得 读者 一 笑 的 花絮。 


正则 表达 式 的 起 源 


The Origins of Regular Expressions 


关于 正则 表达 式 ， 最 初 的 想法 来 自 20 世纪 40 年 代 的 两 位 神经 学 家 ，Warren McCulloch 和 
Walter Pitts， 他 们 研究 出 一 种 模型 ， 认 为 神经 系统 在 神经 元 层面 上 就 是 这 样 工作 的 ( 注 1)。 
若干 年 后 , 数学 家 Stephen Kleene 在 代数 学 中 正式 描述 了 这 种 被 他 称 为 “正则 集合 ”(regular 
sets) 的 模型 ， 正 则 表达 式 才 成 为 现实 。Stephen 发 明了 一 套 简 洁 的 表示 正则 集合 的 方法 ， 

他 称 之 为 “正则 表达 式 ”(regular expressions), 


20 世纪 50 年 代 和 60 年 代 ， 理 论 数学 界 对 正则 表达 式 进 行 了 充分 的 研究 。Robert Constable 
的 文章 为 那些 对 数学 感 兴趣 的 读者 提供 了 很 不 错 的 简介 ( 注 2)。 


尽管 存在 更 古老 的 应 用 正则 表达 式 的 证 据 ， 但 我 能 找到 的 是 ， 关 于 在 计算 方面 使 用 正则 表 
达 式 的 资料 ， 最 时 发表 的 是 1968 年 Ken Thompson 的 文章 Regular Expression Search 
Algorithm ( 注 3)， 在 文中 ， 他 描述 了 一 种 正则 表达 式 编译 器 ， 该 编译 器 生成 了 IBM 7094 
的 object 代码 。 由 此 也 诞生 了 他 的 ged， 这 种 编辑 器 后 来 成 了 Unix 中 ed 编辑 器 的 基础 。 


ed 的 正则 表达 式 并 不 如 ged 的 先进 , 但 是 这 是 正则 表达 式 第 一 次 在 非 技术 领域 大 规模 使 用 。 
ed 有 条 命令 ， 显 示 正 在 编辑 的 文件 中 能 够 匹配 特定 正则 表达 式 的 行 。 该 命令 “g/Reguiar 
Expression/p”， 读 作 “Global Regular Expression Print”( 应 用 正则 表达 式 的 全 局 输出 )。 这 
个 功能 非常 实用 ， 最 终 成 为 独立 的 工具 grep (之 后 又 产生 了 egrep 一 一 扩展 的 grep). 


注 1: 文章 的 标题 是 logical calculus of the ideas imminent in nervous activity, 首次 刊载 于 Bulletin 
of Math. Biophysics 5(1943)， 然 后 收录 于 Embodiments of Mind (MIT Press 1965) 。 这 篇 文章 
的 开头 简要 描述 了 神经 细胞 的 行为 方式 〈 你 知道 神经 脉冲 的 速度 在 每 秒 1 ASF] 150 米 之 间 
吗 ? ) ， 下 面 就 都 是 各 种 算式 了 ， 反 正 我 是 一 点 也 不 懂 。 

注 2: Robert L. Constable, “The Role of Finite Automata in the Development of Modern Computing 
Theory,” in The Kleene Symposium, Eds. Barwise, Keisler, and Kunen (North-Holland 
Publishing Company, 1980), 61-83, 

ig 3: Communications of the ACM, Vol.11, No. 6, June 1968 , 
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Grep 中 的 元 字符 


相 比 egrep, grep 和 其 他 早期 工具 所 支持 的 元 字符 相当 有 限 。 元 字符 * 是 受 支持 的 , 但 是 + 和 ? 
则 不 受 支持 (不 支持 问号 是 很 严重 的 缺陷 )。Grep 中 用 于 捕获 元 字符 的 是 \(…\) ， 而 未 转 义 
的 括号 会 当 作 普通 字符 〈 注 4)。grep 支持 行销 点 (line anchors)， 但 方式 十 分 有 限 。 如 果 、* 
出 现在 正则 表达 式 的 开头 ， 它 就 是 匹配 行 开头 的 元 字符 。 否 则 它 就 不 是 一 个 元 字符 ， 而 只 
是 一 个 普通 的 脱 字符 。 同 样 ，$ 只 有 出 现在 正则 表达 式 的 未 尾 时 才 被 当 作 元 字符 。 结 果 ， 用 
户 没 法 使 用 'enad$ 1^startj 这 样 的 表达 式 。 不 过 这 不 要 紧 ， 因 为 grep 不 支持 多 选 结构 。 


元 字符 的 作用 规则 也 很 重要 。 例 如 ，grep 的 最 大 问题 或 许 在 于 ， 星 号 无 法 用 来 限定 括号 内 
的 子 表达 式 ， 而 只 能 用 于 限定 普通 的 字符 、 字 符 组 ， 或 者 点 号 。 所 以 ， 在 grep 中 ， 括 号 的 
作用 仅 限于 捕获 已 匹配 的 文本 , 而 不 能 用 来 进行 普通 的 分 组 。 实际 上 , 某 些 早 期 版 本 的 grep 
甚至 不 支持 括号 媒 套 。 


Grep 的 发 展 历程 


尽管 今天 的 许多 系统 都 有 对 应 的 grep， 但 你 会 注意 到 ， 本 书 中 提 到 grep 时 使 用 的 都 是 过 去 
时 态 (译注 1)。 过 去 时 对 应 旧版 本 所 属 的 流派 , 它们 的 历史 都 超过 30 年 了 。 在 这 段 时 间 中 ， 
技术 在 不 断 进步 ， 旧 的 程序 也 会 加 入 新 的 特性 ，grep 也 不 例外 。 


在 最 老 版 本 的 grep Zt, AT&T 的 贝尔 实验 室 加 入 了 一 些 新 的 特性 , 例如 从 lex 程序 中 借鉴 
来 的 \ (min, max\}。 他 们 还 修正 了 -y 选项 , 早期 版 本 的 grep 通过 -y 进行 不 区 分 大 小 写 的 匹 
配 ， 但 此 功能 并 不 正常 。 同 时 ，Berkeley 的 人 加 入 了 表示 单词 开头 和 结束 的 元 字符 ， 把 -y 
改 为 -i。 不 幸 的 是 ， 星 号 或 其 他 量词 仍然 无 法 作用 于 括号 内 的 表达 式 。 


Egrep 的 发 展 历程 


此 时 ，Alfred Aho (同样 是 ATAT 的 贝尔 实验 室 ) SUT egrep， 它 提供 了 第 1 章 介绍 的 各 
种 元 字符 中 的 大 部 分 元 字符 。 更 重要 的 是 ， 它 以 一 种 全 然 不 同 (但 总 的 来 说 更 好 ) 的 方式 
实现 了 这 些 功能 。 不 但 加 上 了 [+ Ales, 还 容许 量词 作用 于 括号 内 的 表达 式 , 这 大 大 增强 了 
egrep 的 表达 能 力 。 


注 4: 历史 遗留 问题 : ed (因此 也 包括 8rep) 使 用 转 义 的 括号 来 分 组 ， 是 因为 Ken Thompson 觉 
得 正则 表达 式 主要 用 于 C 代码 ， 因 此 匹配 普通 括号 会 比 回溯 更 常用 。 
译注 1: 汉语 无 法 完整 地 表现 时 态 。 
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同时 ， 多 选 结构 加 入 了 ，, 行销 点 也 升级 到 “基础 级 别 ”， 可 以 在 正则 表达 式 的 任何 地 方 使 用 。 
不 过 ，egrep 也 不 够 完美 一 一 有 时 候 它 能 匹配 ， 但 不 会 显示 结果 ， 而 且 它 缺乏 某 些 当今 流行 
的 特性 。 不 过 无 论 如 何 ， 它 都 比 grep 有 用 得 多 。 


其 他 工具 的 发 展 历程 


就 在 egrep 演变 的 同时 ， 其 他 程序 ， 例 如 awk, lex 和 sed， 也 在 按 各 自 的 脚步 前 进 。 通 常 ， 
开发 人 员 会 把 某 个 程序 中 自己 喜欢 的 特性 添加 到 其 他 程序 中 。 有 时 候 ， 结 果 并 不 尽 如 人 意 。 
例如 ， 如 果 要 在 grep 中 增加 对 + 的 支持 ， 就 不 能 直接 使 用 “+' ， 因 为 长 期 来 以 来 在 grep 
中 “+:” 都 不 是 元 字符 ， 突 然 进 行 这 种 修改 会 让 大 家 感到 不 适应 。 因 为 “\+” 可 能 是 grep 
的 用 户 在 正常 情况 下 不 会 输入 的 ， 把 它 作 为 “ 重 现 一 次 或 多 次 ”的 元 字符 可 能 更 合适 。 


有 了 时候， 添加 新 特性 也 会 带 来 新 的 bug。 另 外 一 些 时 候 ， 新 添加 的 特性 不 久 后 又 被 删除 了 。 
构成 流派 的 各 个 细微 的 方面 ， 几 乎 都 没有 什么 文档 ， 所 以 新 的 工具 软件 要 么 形成 了 自己 的 
流派 ， 要 么 尝试 模仿 其 他 工具 ， 提 供 “ 看 来 相似 ”的 功能 。 


这 一 切 ， 加 上 漫长 的 发 展 史 ， 众 多 的 程序 员 ， 结 果 就 是 巨大 的 谜 局 ( 注 5)。 


POSIX 一 一 标准 化 的 尝试 


诞生 于 1986 年 的 POSIX 是 Portable Operating System Interface (可 移植 操作 系统 接口 ) 的 缩 
写 ， 它 是 一 系列 标准 ， 确 保 操作 系统 之 间 的 移植 性 。 该 标准 的 某 些 部 分 关 平 正则 表达 式 和 
使 用 他 们 的 传统 工具 ， 所 以 值得 我 们 关注 。 不 过 ， 本 书 涉及 的 各 种 流派 无 一 严格 地 遵守 了 
所 有 的 相关 规定 。 为 了 厘清 正则 表达 式 的 混乱 局 面 ，POSIX 把 各 种 常见 的 流派 分 为 两 大 类 : 
Basic Regular Expressions (BREs) 和 Extended Regular Expressions (EREs), POSIX 程序 必 
须 支 持 其 中 的 任意 一 种 。 下 页 的 表 3-1 简要 介绍 了 这 两 种 流派 的 元 字符 。 


POSIX 标准 的 主要 特性 之 和 + 是 locale, 它 是 一 组 关于 语言 和 文化 传统 -一 例如 日 期 和 时 间 的 
格式 、 货币 币值 、 字符 编码 对 应 的 意义 等 一 一 的 设 定 。locals 的 目的 在 于 让 程序 变 得 国际 化 。 
它们 不 是 正则 表达 式 相关 的 概念 ， 尽 管 它们 会 影响 正则 表达 式 的 使 用 。 举 例 来 说 ， 工 作 于 


注 5: 尤其 是 你 尝试 一 下 子 解决 所 有 问题 的 时 候 更 是 如 此 ， 我 现在 对 此 体会 深刻。 
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表 3-1: POSIX 正则 表达 式 流派 概览 











a BRE a RFS 
aa 7. 6. beh ik A 

“任意 数 月 ”量词 ` 

+ 和 ?量词 Ee 

区 间 重 记 (min, max) 

分 组 E 

量词 可 否 作用 于 括号 / 

反 向 引用 

多 选 结构 eae a |" 


Latin-1 编码 (也 称 为 “ISO-8859-1") 之 中 时 ，a 和 A (分 别 对 应 十 进 制 编码 224 和 160) 
也 被 认为 是 “字符 "， 任 何不 区 分 大 小 写 的 正则 表达 式 都 会 认为 这 两 个 字符 是 相等 的 。 


另 一 个 例子 是 \w， 通 常用 于 表示 “构成 单词 的 字符 ”( 在 很 多 流派 中 ， 它 等 价 于 
[a-za-Z0-9_] )。 这 个 特性 并 不 是 POSIX 中 必须 的 ， 但 容许 出 现 。 如 果 支 持 的 话 ，\w 就 能 
对 应 locale 中 的 所 有 字母 和 数字 ， 而 不 仅仅 限于 ASCII 编码 的 字符 和 数字 。 


如 果 程 序 支持 Unicode, 那么 关于 locale 的 问题 就 极 大 地 简化 了 。Unicode 的 详细 讨论 从 106 
页 开始 。 


Henry Spencer 的 正则 表达 式 包 


同样 是 在 1986 年 , 发 生 了 于 一 件 更 重要 的 事情 , Henry Spencer 发 布 了 用 C 语言 写 的 正则 表 
达 式 包 ， 这 个 包 可 以 毫 无 困难 地 置 入 其 他 程序 中 一 一 这 在 当时 具有 开创 性 的 意义 。 每 一 个 
使 用 Henry 的 包 的 程序 一 一 的 确 存 在 很 多 一 一 都 属于 相同 的 流派 ， 除 非 程序 的 作者 费 尽 周 
折 去 修改 。 


Perl 的 发 展 历程 


差不多 在 同时 ，Larry Wall 开始 开发 一 种 工具 ， 也 就 是 日 后 的 Perl 语言 。 他 的 patch 程序 已 
经 大 大 促进 了 分 布 式 软件 开发 (distributed software development), ， 但 是 Perl 注定 要 产生 重 
大 的 影响 。 


1987 年 12 H, Larry 发 布 了 Perl Version 1, Perl 很 快 引 起 了 关注 ， 因 为 它 炮 合 了 其 他 语言 
的 众多 特性 ， 但 指向 一 个 明确 的 目的 ;就 是 我 们 日 常 所 说 的 “实用 (useful)”. 
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Perl 的 特性 中 值得 一 提 的 是 , 它 提供 了 传统 上 只 有 专用 工具 sed 和 awk 才 提 供 的 正则 表达 式 
操作 符 一 一 这 在 通用 脚本 语言 中 是 个 首创 。 正 则 引擎 的 代码 来 自 一 个 早期 的 项 目 一 一 Larry 
的 新 闻 阅 读 器 rn (其 中 的 正则 表达 式 代 码 来 自 James Gosling 的 Emacs ( 注 6) )。Perl 的 正 
则 流派 ， 用 当时 的 标准 衡量 是 很 强大 的 ， 但 功能 不 如 今天 那样 齐全 。 它 主要 的 问题 在 于 ， 

最 多 只 能 支持 9 组 括号 ，9 个 多 选 结 构 ， 最 粳 糕 的 是 ， 括 号 内 不 容许 出 现 ,,， 也 不 能 进行 
不 区 分 大 小 写 的 匹配 , 不 支持 字符 组 中 的 \w (完全 不 支持 \a 和 \s)。 也 不 支持 区 间 量 词 min, 


max} , 


Perl 2 发 布 于 1988 年 6 H. Larry 完全 放弃 了 原 有 的 正则 表达 式 代 码 , 而 采用 了 前 面 提 到 过 
的 Henry Spencer 的 正则 表达 式 包 的 增强 版 。 括 号 的 数目 仍然 只 有 9 个 ,但 是 括号 中 可 以 使 
用 了。'\a 和 \s 的 支持 也 加 了 进来 ，\w 现 在 可 以 匹配 下 画 线 了 ， 从 这 时 开始 ，\w 能 够 匹 
配 Perl 的 变量 名 中 容许 出 现 的 字符 。 此 外 ， 字 符 组 之 内 也 可 以 出 现 元 字符 (表示 否定 的 元 
字符 、\D、\Ww 和 \s， 也 可 以 支持 ， 但 不 能 使 用 在 字符 组 内 部 ， 而 且 总 在 有 些 情况 下 无 法 正 
常 工作 )。 很 重要 的 一 点 是 ， 添 加 了 /i 量词 ， 能 够 进行 不 区 分 大 小 写 的 匹配 。 


Perl 3 发 布 于 一 年 多 以 后 的 1989 年 10 月 。 它 添加 了 /e 量词 ， 这 样 极 大 地 增强 了 替换 运算 
符 的 能 力 , 同时 修正 了 之 前 版 本 中 的 一 些 与 回调 相关 的 bug, 也 添加 了 {min, max} 区 间 量 词 。 
虽然 很 不 幸 ， 这 些 量词 不 能 保证 在 任何 情况 下 都 可 以 正常 工作 。 还 有 ， 这 时 候 Per 的 正则 
引擎 本 不 应 该 停留 在 只 处 理 8 位 编码 数据 的 水 平 ， 但 是 面 对 非 ASCI 输入 时 ， 会 产生 无 法 
预料 的 结果 。 


Perl 4 的 发 布 是 在 一 年 半 以 后 ，1991 年 3 月 , 在 接 下 来 的 两 年 间 ，Perl 4 一 直 在 改进 ， 直 到 
1993 年 2 月 发 布 最 终 升 级 。 到 此 时 ， 之 前 的 bug 已 经 修正 ， 原 有 的 限制 也 被 突破 (\D 之 类 
可 以 应 用 在 字符 组 中 ， 而 括号 的 数目 也 不 再 有 限制 )， 正 则 引擎 也 花 了 很 多 功夫 来 优化 ， 不 
过 真正 的 突破 是 在 1994 年 。 


Perl 5 正式 发 布 于 1994 年 10 月 。 这 一 版 的 Pel 经 历 了 全 面 的 修整 , 在 各 个 方面 都 比 原来 强 
上 许多 。 就 正则 表达 式 来 说 ， 它 进行 了 更 多 的 内 部 优化 ， 添 加 了 少量 元 字符 (Oc HRT 


ig 6: James Gosling 后 来 去 开发 他 自己 的 语言 Java，Java 1.4 提供 了 一 个 标准 的 正则 表达 式 包 。 
第 8 章 详细 介绍 了 Java。 


iii 
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代 匹 配 的 能 力 宁 130) 、 非 捕获 的 括号 (745), AMRF (lazy) 的 量词 (7141), MEH 
视 功 能 (了 60)， 以 及 /x 量词 (772) ( 注 7)。 


这 些 新 增 功能 的 意义 并 不 限于 功能 本 身 ， 更 重要 的 是 ， 这 些 “ 新 增 ”的 修改 使 正则 表达 式 
本 身 成 为 一 种 强大 的 编程 语言 ， 并 为 它 提 供 了 进一步 的 发 展 空间 。 


新 增 的 非 捕获 型 括号 和 顺序 环视 结构 都 需要 新 的 表达 方式 。 而 (…) 、[…] 、<…> 和 1{…} 都 已 
经 有 了 含义 ， 所 以 Larry 采用 了 我 们 今天 使 用 的 “(? ”表示 法 。 这 个 表示 法 并 不 好 看 ， 不 过 
在 之 前 的 Perl 正则 表达 式 中 这 是 不 合 规 则 的 组 合 ， 所 以 添加 起 来 完全 没有 障碍 。Larry th Fil 
匈 到 ， 将 来 可 能 还 需要 新 增 其 他 的 功能 ， 所 以 他 对 “(?” 之 后 的 字符 做 了 限制 ， 这 样 就 能 
保留 某 些 字符 ， 用 于 将 来 更 多 的 功能 。 


之 后 的 各 版 Perl 越 来 越 健壮 ， 错 误 越 来 越 少 ， 内 部 优化 越 来 越 棒 ， 添 加 了 越 来 越 多 的 新 特 
性 。 我 相信 ， 本 书 的 第 一 版 也 为 此 做 了 小 小 的 贡献 ， 因 为 郧 人 研究 和 测试 了 正则 表达 式 相 
关 的 特性 ， 并 将 结果 告知 Larry 和 Perl Porters group， 为 改进 提供 了 反馈 。 


后 来 添加 的 新 特性 包括 逆序 环视 功能 (了 60),“ 固 化 ”分 组 (“atomic” grouping 7139), 

和 Unicode 支持 。 新 添加 的 条 件 判 断 结构 更 是 把 正则 表达 式 提升 到 了 一 个 新 的 层次 (“140)， 
它 容许 用 户 在 正则 表达 式 中 进行 if-then-else 的 条 件 判断 和 控制 。 如 果 这 些 还 不 够 强大 的 话 ， 
新 的 结构 其 至 容许 程序 员 在 正则 表达 式 中 运行 Perl 代码 ， 正 则 表达 式 和 程序 代码 之 间 的 界 
限 已 经 不 复 存 在 了 (327)。 本 书 中 使 用 的 Perl 的 版 本 为 5.8.8。 


流派 的 部 分 整合 


具有 先 见 之 明 的 Perl 5 完全 契合 了 互联 网 革命 的 节拍 。Perl 的 初衷 是 文本 处 理 ， 而 Web 页 
的 生成 其 实 正 是 文本 处 理 ， 所 以 Perl 迅速 成 为 了 开发 Web 程序 的 语言 。Perl 广 受 欢迎 ， 其 
中 强大 的 正则 流派 也 是 如 此 。 


其 他 语言 的 开发 人 员 当 然 不 会 视而不见 ， 最 终 在 某 种 程度 上 “兼容 Per (Perl compatible) 
的 正则 表达 式 包 出 现 了 。Tcl、Python、.NET、Ruby、PHP、C/C++ 都 有 各 自 的 正则 表达 式 
包 ，jJava 语言 中 还 有 多 个 正则 表达 式 包 。 


注 7: 我 写 过 一 篇 文章 来 谈 长 而 复杂 的 正则 表达 式 ， 为 了 保持 清晰 ， 我 对 正则 表达 式 进行 了 “ 美 
观 的 排版 "。Larry 见 到 之 后 觉得 在 Perl 代码 中 这 样 做 会 很 方便 ， 于 是 就 沪 加 了 /Xx。 这 样 说 
来 ， 其 中 还 有 本 人 的 功劳 。 
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另 一 种 形式 的 整合 始 于 1997 年 (凑巧 的 是 , 本 书 的 第 一 版 也 在 当年 面世 ) , 当时 Philip Hazel 
开发 了 PCRE， 这 是 一 套 兼 容 Per 正则 表达 式 的 库 ，PCRE 的 正则 引擎 质量 很 高 ， 全 面 仿制 
Perl 的 正则 表达 式 的 语法 和 语义 。 其 他 的 开发 人 员 可 以 把 PCRE 整合 到 自己 的 工具 和 语言 
中 ， 为 用 户 提供 丰富 而 且 极 具 表 现 力 (也 是 众所周知 ) 的 各 种 正则 功能 。 许 多 流行 的 软件 
都 使 用 了 PCRE， 例 如 PHP、Apache 2、Exim、Postfix 和 Nmap ( 注 8)。 


本 书 对 应 的 版 本 


R 3-2 列 出 了 本 书 中 使 用 的 工具 和 库 的 版 本 信息 。 更 老 的 版 本 可 能 功能 更 少 ，bug 更 多 ,新 
的 版 本 则 会 提供 更 多 的 特性 ， 并 修正 之 前 的 bug (当然 也 可 能 多 出 新 的 bug)。 


表 3-2: 本 书 中 提 到 的 一 些 工 具 的 版 本 





GNU awk 3.1 java.util.regex (JDK 1.5， 也 叫 5.0) Procmail 3.22 
GNU egrep/grep 2.5.1 NET as 2.0 Python 2.3.5 
GNU Emacs 21.3.1 PCRE 6.6 Ruby 1.8.4 
flex 2.5.31 Perl 5.8.8 GNU sed 4.0.7 
MySQL 5.1 PHP (preg routine) 5.1.4/4.4.3 Tel 8.4 

最 初 印象 

Ata Glance 


我 们 用 一 张 表格 来 比较 常见 工具 软件 在 几 方 面 的 功能 ， 以 便 理解 仍然 存在 的 差异 。 表 3-3 
提供 了 若干 工具 软件 的 正则 表达 式 所 属 流派 在 各 方面 的 简要 信息 。 


其 他 书籍 通常 在 比较 各 款 工 具 软 件 时 ， 也 会 包含 表 3-3 之 类 的 表格 。 但 是 , 这 张 表 只 是 冰山 
一 角 一 一 列 出 的 每 一 种 特性 的 背后 ， 都 有 许多 重要 的 知识 。 


最 重要 的 是 程序 会 不 断 变化 。 举 例 来 说 ，Tcl 以 前 是 不 支持 反 向 引用 和 单词 分 界 符 的 ， 但 是 
现在 支持 。 最 开始 ， 用 来 表示 单词 分 界 符 的 是 难看 的 [:<:] 和 [:>:]， 至 今 仍 是 这 样 ， 尽 管 
这 种 表示 法 已 经 废弃 ， 取 代 它 的 是 后 来 添加 的 \m、\M 和 \y (单词 起 始 、 单 词 结束 ， 或 者 两 
HEL). 


同样 ，grep 和 egrep 并 没有 单一 的 作者 ， 只 要 愿意 ， 任 何人 都 可 以 开发 ， 也 能 修改 到 符合 到 
作者 期 望 的 任何 流派 。 人 人 都 希望 按照 自己 的 意愿 来 ， 人 性 就 是 如 此 (例如 ， 许 多 常用 工 


注 8: PCRE 在 下 面 的 地 址 有 免费 提供 ftp//ftp.csx.cam.ac.uk/pub/software/programming/pcre/, 
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表 3-3: 若干 常用 工具 的 Flavor 的 (非常 ) 简要 考察 
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具 的 GNU 版 本 ， 比 其 他 版 本 更 强大 ， 也 更 健壮 )。 


或 许 与 列 出 的 特性 一 样 重要 的 是 流派 之 间 的 许多 细微 (有些 并 非 细 微 ) 差别 。 从 表格 来 看 ， 
Perl、.NET 和 Java 的 正则 表达 式 似 乎 是 一 样 的 ， 而 实际 情况 却 远 不 是 这 样 。 针 对 表 3-3, 
读者 可 能 提出 的 问题 包括 : 


。 ” 星 号 之 类 的 量词 能 否 作用 于 括号 之 内 的 子 表达 式 ? 


。 ”点 号 能 否 匹配 换行 符 ? 排除 型 字符 组 能 否 匹 配 换行 符 ? 以 上 两 者 能 否 匹配 NUL F 
符 ? 


© 47A (line anchor) 是 名 符 其 实 的 吗 ( 例 如 ,他 们 能 否 识别 目标 字符 串 内 部 的 换行 符 )? 
它们 算 正则 表达 式 中 的 基础 级 别 (first-class) 的 元 字符 吗 ? 还 是 只 能 应 用 在 某 些 结构 
中 ? 


。 ”字符 组 内 部 能 出 现 转 义 字符 吗 ? 字符 组 内 部 还 容许 或 不 容许 出 现 哪 些 字符 ? 


。 ”括号 能 够 戏 套 吗 ? 如果 是 ， 贱 套 的 深度 是 否 有 限制 呢 (还 有 个 问题 是 ， 一 共 容 许 出 现 
BES WE) 2 


。 ”如 果 容 许 反 向 引用 ， 在 进行 不 区 分 大 小 写 的 匹配 时 ， 反 向 引用 能 顺利 进行 吗 ? 在 极端 
的 情况 下 ， 反 向 引用 的 “行为 ”有 意义 吗 ? 


。 ”是否 可 以 出 现 八进制 的 转 义 字符 \123? 如 果 是 ， 怎 么 区 分 它 和 反 向 引用 呢 ? 十 六 进 制 
的 转 义 字符 呢 ? 这 种 支持 是 正则 引擎 提供 的 ， 还 是 由 其 他 工具 提供 的 ? 
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。 w 只 支持 数字 和 字符 ， 还 是 包括 其 他 字符 ? (R 3-3 列 出 的 支持 \w 的 工具 对 \w 有 不 
同 的 解释 )。 不 同 的 单词 分 界 符 元 字符 对 构成 “单词 分 界 符 ”的 字符 的 定义 不 一 样 ，\w 
是 否 与 它们 保持 一 致 ?x 它们 是 按照 locale 的 定义 昵 ， 还 是 支持 Unicode? 


即使 表 3-3 这 样 的 介绍 这 样 简单 ， 我 们 仍然 必须 记得 这 些 问 题 。 如 果 你 能 意识 到 ， 在 看 起 来 
光鲜 的 外 表 下 面 渤 藏 着 许多 问题 ， 就 容易 保持 清醒 的 头脑 来 应 付 它们 。 


在 本 章 开头 我 们 已 经 提 到 ， 许 多 问题 只 是 语法 的 差异 ， 但 也 有 许多 并 非 如 此 。 比 方 说 ， 了 
解 到 egrep H) ' (Jul | July); 7 GNU Emacs 中 必须 写成 (Jul\1July\) 之后, 你 或 许 会 认 
为 所 有 的 问题 都 是 这 样 ， 但 事实 并 非 如 此 。 在 匹配 尝试 过 程 中 的 语义 差异 (RH, BLE 
看 起 来 是 在 匹配 尝试 过 程 中 的 ) 通常 被 忽视 ， 但 极其 重要 的 问题 是 ， 它 也 解释 了 为 什么 两 
个 看 起 来 一 样 的 表达 式 会 获得 截然 不 同 的 结果 : 一 个 总 是 匹配 ‘Jui' ， 即 使 目标 文本 是 
'July"。 这 些 看 起 来 毫 无 区 别 的 语义 也 解释 了 ， 为 什么 两 个 顺序 相反 的 正则 表达 式 ; 
(gulylyruljj 和 仆 (ouly\loul\) 能 够 取得 同样 的 匹配 结果 。 其 实 ， 整 个 下 一 章 都 在 讲解 
这 类 问题 。 


当然 ， 一 款 工 具 软件 能 够 利用 正则 表达 式 实 现 的 功能 ， 通 常 比 它 所 属 的 正则 流派 更 重要 。 
例如 ， 就 算 Perl 的 正则 表达 式 功 能 不 及 egrep， 在 使 用 正则 表达 式 时 ，Perl 所 具有 的 简便 性 
却 更 有 价值 。 我 们 会 在 本 章 逐 个 介绍 各 种 特性 ， 并 在 后 面 各 章 座 入 讲解 几 种 编程 语言 。 


正则 表达 式 的 注意 事项 和 处 理 方式 


Care and Handling of Regular Expressions 


本 章 开 头 列 出 的 第 二 点 需要 注意 的 就 是 ， 正则 表达 式 的 句法 规则 (syntactic packaging), € 
告诉 应 用 程序 :“ 嘿 , 这 儿 有 一 个 正则 表达 式 , 我 需要 你 做 这 些 "。egrep 是 一 个 简单 的 例子 ， 
因为 正则 表达 式 是 作为 命令 行 参 数 传 过 去 的 。 其 他 的 “语法 诀窍 (syntactic sugar)”, fán 
我 在 第 1 章 坚 持 使 用 的 单 引 号 ， 是 因为 考虑 到 shell， 而 不 是 egrep。 复 杂 的 系统 ， 例 如 程序 
设计 语言 中 的 正则 表达 式 ， 需 要 更 多 的 包装 ， 系 统 才 能 知道 哪些 部 分 是 正则 表达 式 ， 需 要 
如 何 处 理 。 


下 一 步 是 考察 我 们 能 够 对 匹配 结果 进行 的 操作 。 同 样 ，e8grep 在 这 方面 很 简单 ， 因 为 它 做 的 
都 是 同样 的 事情 (显示 包含 匹配 文本 的 行 )， 但 是 ， 我 们 在 前 一 章 的 开头 已 经 说 过 ， 真 正 有 
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意义 的 是 更 复杂 的 操作 。 其 中 最 基本 的 是 匹配 (检查 一 个 正则 表达 式 是 否 能 匹配 一 个 字符 
串 ， 或 者 从 字符 串 中 提取 信息 ) ， 以 及 查找 和 替换 ， 根 据 匹 配 的 结果 修改 字符 种。 这 些 操 作 
可 以 以 多 种 形式 进行 ， 不 同 的 语言 对 此 也 有 不 同 的 规定 。 


一 般 来 说 ， 程 序 设计 语言 有 3 种 处 理 正 则 表达 式 的 方式 :集成 式 (integrated) 、 程 序 式 

(procedural) 和 面向 对 象 式 (object-oriented) 。 在 第 一 种 方式 中 ,正则 表达 式 是 直接 内 建 在 
语言 之 中 的 ，Perl 就 是 如 此 。 但 是 在 其 他 两 种 方式 中 ， 正 则 表达 式 不 属于 语言 的 低级 语法 。 
相反 ， 普 通 的 函数 接收 普通 的 字符 串 ， 把 它们 作为 正则 表达 式 进 行 处 理 。 由 不 同 的 函数 进 
行 不 同 的 、 关 系 到 一 个 或 多 个 正则 表达 式 的 操作 。 大 多 数 语言 (不 包括 Perl) 采用 的 都 是 这 
两 种 方式 之 一 ， 包 括 Java, .NET, Tcl, Python, PHP, Emacs, lisp 和 Ruby, 


集成 式 处 理 


Integrated Handling 


我 们 已 经 看 过 Pel 的 集成 式 处 理 方法 ， 例 如 第 55 页 的 例子 : 


if (Sline =~m/*Subject: (.*)/i) { 
Ssubject = §1; 
} 


为 清楚 起 见 ， 我 用 斜体 标注 变量 名 ， 正 则 表达 式 相关 的 部 分 则 用 粗 体 标注 ， 正 则 表达 式 本 
身 用 下 画 线 标注 。Perl 会 把 正则 表达 式 “Subject:…(.*)1 应 用 到 $line 保存 的 文本 中 ， 如 
果 能 够 匹配 ， 则 执行 下 面 的 程序 段 。 其 中 ， 变 量 S$1 代表 括号 内 的 子 表 达 式 匹配 的 文本 ， 将 
EMRA subject, 


另 一 个 集成 式 处 理 的 例子 是 把 正则 表达 式 作为 配置 文件 的 一 部 分 ， 例 如 procmail (Unix F 
的 一 个 邮件 处 理 程序 )。 在 配置 文件 中 ， 正 则 表达 式 用 于 将 邮件 信息 发 布 到 对 应 的 处 理 程序 
中 。 这 个 例子 比 Perl 更 简单 ， 因 为 不 需要 指明 操作 对 象 (邮件 信息 )。 


这 两 个 例子 背后 的 原理 要 复杂 一 些 。 集 成 式 处 理 方法 减轻 了 程序 员 的 负担 ， 因 为 它 隐 藏 了 
一 些 工作 ， 例 如 正则 表达 式 的 预 处 理 ， 准 备 匹 配 ， 应 用 正则 表达 式 ， 返 回 结果 。 省 略 这 些 
操作 减轻 了 常见 任务 的 完成 难度 ， 不 过 我 们 之 后 将 会 看 到 ， 有 些 情 况 下 ， 这 样 处 理 反而 更 
慢 ， 更 复杂 。 


不 过 ， 在 深入 细节 之 前 ， 我 们 先 打 量 打量 其 他 的 处 理 方式 ， 然 后 再 来 揭示 这 些 被 隐藏 的 步 
R. 
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程序 式 处 理 和 面向 对 象 式 处 理 


Procedural and Object-Oriented Handling 


程序 式 处 理 和 面向 对 象 式 处 理 非常 相似 。 这 两 种 方式 下 ， 正 则 功能 不 是 由 内 建 的 操作 符 来 
提供 ， 而 是 由 普通 函数 (函数 式 ) 或 构造 函数 及 方法 (面向 对 象 式 ) 来 提供 的 。 这 种 情况 
下 ， 并 没有 专属 于 正则 表达 式 的 操作 符 ， 只 有 平常 的 字符 串 ， 普 通 的 函数 、 构 造 函 数 和 方 
法 把 这 些 字 符 串 作为 正则 表达 式 来 处 理 。 


下 面 几 节 给 出 了 几 个 Java, VB.NET, PHP 和 Python 的 例子 。 


Java 中 的 正则 处 理 


现在 来 看 “Subject” 例 子 在 Java 中 的 实现 方式 , 使 用 Sun 提供 的 java.util.regex 包 (第 
8 章 详细 介绍 Java)。 


import java.util.regex.*; // 这 样 使 用 regex 包 中 的 类 更 加 容易 


wwe 


Pattern r = Pattern.compile("“Sujbcet: (.*)", Pattern.CASE_INSENSITIVE) ; 


Q 
@ Matcher m = r.matcher (line); 
@® if (m.find()) { 
© subject = m.group(1); 

} 


我 仍然 用 斜体 标注 变量 名 ， 粗 体 标 注 正 则 表达 式 相 关 的 元 素 ， 下 画 线 标注 正则 表达 式 本 身 。 
准确 地 说 ， 是 用 下 画 线 标注 表示 作为 正则 表达 式 处 理 的 普通 的 字符 串 。 


这 个 类 说 明了 面向 对 象 式 处 理 方法 , 它 使 用 Sun 提供 的 java.util. regex 包 的 两 个 类 一 一 
Pattern 和 Matcher, 其 中 执行 的 操作 有 : 


@ 检查 正则 表达 式 ， 将 它 编 译 为 能 进行 不 区 分 大 小 匹配 的 内 部 形式 (internal form), 
得 到 一 个 “Pattern” 对 象 。 


o 将 它 与 欲 匹 配 的 文本 联系 起 来 ， 得 到 一 个 “Matcher” 对 象 。 
© ”应 用 这 个 正则 表达 式 ， 检 查 之 前 与 之 建立 联系 的 文本 ， 是 否 存在 匹配 ， 返 回 结果 。 
© 如果 存在 匹配 ， 提 取 第 一 个 捕获 括号 内 的 子 表 达 式 匹配 的 文本 。 


任何 使 用 正则 表达 式 的 语言 都 需要 进行 这 些 操作 ， 或 是 显 式 的 explicitly) RAMAN 
(implicitly), Perl 隐藏 了 大 多 数 细节 ，jJava 的 实现 方式 则 暴露 这 些 细节 。 

函数 式 处 理 的 例子 。 不 过 ，Java 也 提供 了 一 些 函 数 式 处 理 的 “便捷 图 数 (convenience 
functions)” 来 节省 工作 量 。 用 户 不 再 需要 首先 声称 一 个 正则 表达 式 对 象 ， 然 后 使 用 该 对 象 
的 方法 来 操作 。 下 面 的 静态 函数 提供 了 临时 对 象 ， 执 行 完 之 后 ， 这 些 对 象 就 会 被 自动 抛弃 。 
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这 个 例子 用 来 说 明 Pattern.matches(…) 函数 : 


if {! Pattern.matches("\\s*", line)) 
{ 
// ... 如 果 1ine 不 是 空 行 ... 

} 
这 个 函数 包装 了 一 个 隐 式 的 '^…$; 的 正则 表达 式 , 返回 一 个 Boolean 值 , 说 明 它 是 否 能 够 匹 
配 输入 的 字符 串 。Sun 的 package 同时 提供 程序 式 和 面向 对 象 式 的 处 理 方式 是 常见 的 做 法 。 
两 种 接口 的 差别 在 于 便捷 程度 (程序 式 处 理 方 式 在 完成 简单 任务 时 更 容易 ， 但 处 理 复 杂 任 
务 则 很 麻烦 )、 功 能 (程序 式 处 理 方式 的 功能 和 选项 通常 比 对 应 的 面 问 对 象 式 的 要 少 ) 和 效 
率 (在 任何 情况 下 ， 两 类 处 理 方式 的 效率 都 不 同一 一 第 6 章 详细 论述 这 个 问题 )。 


Sun 有 时 也 会 把 正则 表达 式 整合 到 Java 的 其 他 部 分 ， 例 如 上 面 的 例子 可 以 使 用 string 类 的 
matches 功能 来 完成 : 

if (! line.matches("\\s*", )) 

{ 

// ... 如 果 line RABH... 

} 
同样 ， 这 种 办 法 不 如 合理 使 用 面向 对 象 的 程序 有 效率 ， 所 以 不 适宜 在 对 时 间 要 求 很 高 的 循 
环 中 使 用 ， 但 是 “随手 (casual)” 用 起 来 非常 方便 。 


VB 和 .NET 语言 中 的 正则 处 理 


尽管 所 有 的 正则 引擎 都 能 执行 同样 的 基本 操作 ， 但 即使 是 采用 同样 方法 的 各 种 实现 方式 
(implementation) 提供 给 程序 员 完 成 的 任务 ， 以 及 使 用 服务 的 方式 也 各 有 不 同 。 下 面 是 
VB.NET +f) “Subject” Pil (.NET 在 第 9 章 详 细 论 述 ): 


Imports System.Text.RegularExpressions ' 这 样 访问 正则 表达 式 的 类 会 更 方便 


Wee 


Dim R as Regex = New Regex{"^Subject: (.*)", RegexOptions.IgnoreCase) 
Dim M as Match = R.Match( line) 
If M. Success 
subject = M.Groups(1).Value 
End If 


总 的 来 说 ， 它 很 类 似 Java 的 例子 ， 只 是 .NET 将 第 @ 和 第 @ 步 结合 为 一 步 ， 第 @ 步 需要 一 个 
确定 的 值 。 为 什么 会 有 这 样 的 差异 ? 两 者 并 没有 本 质 上 的 优 劣 之 分 一 一 只 是 开发 人 员 采 用 
了 自己 当时 觉得 最 好 的 方式 ( 稍 后 我 们 会 看 到 这 点 )。 


Ii 
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NET 同样 提供 了 若干 程序 式 处 理 的 函数 。 下 面 的 代码 用 于 判断 空 行 : 


If Not Regex.IsMatch(Line, “*\s*$") Then 
， 如 果 1ine 不 是 空 行 . . . 
End If 


Java 的 Pattern.matches 图 数 会 自动 在 正则 表达 式 两 端 添加 “…s$， 微 软 则 提供 了 更 为 -- 
RAJK. Java 的 做 法 只 是 对 核心 对 象 的 简单 包装 ， 但 程序 员 需 要 使 用 的 字符 和 变量 更 少 ， 
而 代价 只 是 一 点 点 性 能 下 降 。 


PHP 中 的 正则 处 理 


下 面 是 使 用 PHP 的 preg 套件 中 的 正则 表达 式 函 数 处 理 'Ssubjectj 的 例子 ， 这 是 纯粹 的 函数 
AHA (第 10 章 详细 介绍 PHP). 


if (preg_match('/*Subject: (.*)/i', Sline, Smatches) ) 
$Subject = $matches{1]; 





Python 中 的 正则 处 理 


最 后 我 们 来 看 Python ‘subject, UPI, Python 采用 的 也 是 面向 对 象 式 的 办 法 。 


import re; 
R= re.compile("“Subject: (.*)", re.IGNORECASE) ; 
M = R.search( line) 
if M: 
subject = M.group(1) 


这 个 例子 与 我 们 之 前 看 过 的 非常 类 似 。 





差异 从 何 而 来 


为 什么 不 同 的 语言 采用 不 同 的 办 法 呢 ? 可 能 有 语言 本 身 的 原因 ， 不 过 最 重要 的 因素 还 是 正 
则 软件 包 的 开发 人 员 的 思维 和 技术 水 准 。 举 例 来 说 ，Java 有 许多 正则 表达 式 包 ， 因 为 这 些 
作者 都 希望 提供 Sun 未 提供 的 功能 。 每 个 包 都 有 自己 的 强项 和 弱项 ， 不 过 有 趣 的 是 ， 每 个 
软件 包 的 功能 设 定 都 不 一 样 ， 所 以 Sun 最 终 决 定 自己 提供 正则 表达 式 包 。 


另 一 个 关于 这 种 差异 的 例子 是 PHP, PHP 包含 了 三 种 完全 独立 的 正则 引擎 ， 每 一 种 都 对 应 
一 套 自己 的 函数 。PHP 的 开发 人 员 在 开发 过 程 中 ， 因 为 对 原 有 的 功能 不 满意 ， 添 加 新 的 软 
件 包 和 对 应 的 接口 函数 套件 来 升级 PHP 核心 (一般 认为 ， 本 书 讲解 的 “preg” 僚 件 是 最 优 
秀 的 ) 。 
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ERMER 


A Search-and-Replace Example 


“Subject” 的 例子 太 简单 ， 还 不 足以 说 明 3 种 方法 之 间 的 差异 。 在 本 节 我 们 将 看 到 更 复杂 
的 例子 ， 它 进一步 揭示 了 不 同 处 理 方 式 在 设计 上 的 差异 。 
在 前 一 章 ,我 们 看 到 了 在 Perl 中 利用 查找 和 替换 将 E-mail 地 址 转换 为 超 链接 的 例子 (了 73) : 


Stext =~ Bf 
\b 
# 把 横 获 的 地 址 保存 到 $1 ... 
( 


\wi-.\w]* # username 
@ 

{[-\w])+(\.[-\w]+)*\.(com|edujinfo) # hostname 
) 


\b 
}{<a href="mailto:$1">$1</a>}gix; 


Perl 的 查找 和 替换 操作 符 是 “ 原 地 生效 ”的 ， 也 就 是 说 ， 替 换 会 在 目标 变量 上 进行 。 其 他 大 
多 数 语言 的 替换 都 是 在 目标 文本 的 副本 上 进行 的 。 如 果 不 需要 修改 原 变量 ， 这 样 操作 就 很 
方便 ， 不 过 如 果 需 要 修改 原 变量 ， 就 得 把 替换 结果 回 传 给 原 变量 。 下 面 给 出 了 一 些 例子 。 


Java 中 的 查找 和 蔡 换 


下 面 是 使 用 Sun 提供 的 java.util.regex 进行 查找 -替换 的 例子 
import java.util.regex.*; // 一 次 性 导入 所 有 需要 用 到 的 类 


Pattern r = Pattern.compile( 
"yp \n" 


+ 
"# 把 捕获 的 地 址 保存 到 $1 ... \n"+ 
"lt \n"+ 
\\w[{-.\\w] * # username \n"+ 
@ \n"+ 
{-\\w)+(\\. 0-\\w) 4) *\\. (comi edu] info) # hostname Anes 
") \n"+ 
"\\b AT 


Pattern.CASE_INSENSITIVE| Pattern.COMMENTS) ; 
Matcher m = r.matcher(text); 
text = m.replaceAll("<a href=\"mailto:$1\">$1</a>"); 


请 注意 ， 字 符 串 中 的 每 个 “\、” 都 必须 转 义 为 “"\、”， 所 以 ， 如 果 我 们 像 本 例 中 一 样 用 文本 
字符 串 来 生成 正则 表达 式 ，\w 就 必须 写成 “\\w'。 在 调试 时 ，system.out.println(r. 
pattern()) 可 以 显示 正则 函数 确切 接收 到 的 正则 表达 式 。 我 在 这 个 正则 表达 式 中 包括 换行 
符 的 原因 是 ， 这 样 看 起 来 很 清楚 。 另 一 个 原因 是 ， 每 个 #3 引入 一 段 注释 ， 直 到 该 行 结束 ， 所 
以 ， 为 了 约束 注释 ， 必 须 设 定 某 些 换行 符 。 
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Perl 使 用 /g、/i、/x 之 类 的 符号 来 表示 特殊 的 条 件 (这 些 修饰 符 分 别 代表 全 局 葵 换 、 不 区 
分 大 小 写 和 宽松 排列 模式 了 135)，java .util .regex 则 使 用 不 同 的 函数 (replaceA1ll 而 不 
是 xeplace), 以 及 给 函数 传递 不 同 的 标志 位 (flag ) 参 数 ( 例 如 Pattern.CASE_INSENSITIVE 


和 Pattern.COMMENTS) 来 实现 。 


VB.NET 中 的 查找 和 蔡 换 
VB.NET 的 程序 与 Java 的 类 似 : 


Dim R As Regex = New Regex _ 

("\b 

" (24 将 捕获 的 地 址 保存 到 $1 ...) 

"( 

" \wf-.\w]* (?# username) 


" [-\w]4+(\.[-\w]+)*\. (comiedu|info) (?# hostname) 
") 

w \b + =~ 
RegexOptions.IgnoreCase Or RegexOptions.IgnorePatternWhitespace) 


3 =: 2a 3 3 24 3 
RR RM RM RM RR 


text = R.Replace(text, "<a href=""mailto:${1}"">$§{1}</a>") 


因为 VB.NET 的 字符 串 文字 (literal) 不 便于 操作 (它们 不 能 跨越 多 行 ， 也 很 难 在 其 中 加 入 
换行 符 ) ,长 一 点 的 正则 表达 式 使 用 起 来 不 如 其 他 语言 方便 。 另 一 方面 ,因为 “\' 不 是 VB.NET 
中 的 字符 捉 的 元 字符 ， 这 个 表达 式 看 起 来 要 更 清楚 些 。 双 引号 是 VB.NET 字符 串 中 的 元 字 
符 ， 为 了 表示 这 个 字符 ， 我 们 必须 使 用 两 个 紧 挨 着 的 双 引 号 。 


PHP 中 的 查找 和 替换 
下 面 是 PHP 中 的 查找 和 替换 的 例子 : 
Stext = preg _replace('{ 
\b 
# 把 捕获 的 地 址 保存 到 S1 ... 
( 
\w[-.\w]* # username 
id 
[-\w)+(\. [-\w]+)*\. (com! edu| info) # hostname 
) 
\b 
}ix', 
‘<a href="mailto:$1">$1</a>', # replacement 字符 事 
$text}; 


就 像 Java 和 VB.NET 一 样 ， 查 找 和 替换 操作 的 结果 必须 回 传 给 scext ， 除 去 这 一 点 ， 这 个 
例子 和 Perl 的 很 相似 。 


ill 
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其 他 语言 中 的 查找 和 替换 


Search and Replace in Other Languages 
下 面 我 们 简要 看 看 其 他 传统 工具 软件 和 语言 中 查找 和 替换 的 例子 。 


Awk 


Awk 使 用 的 是 集成 式 处 理 方法 ，/regex/， 来 匹配 当前 的 输入 行 ， 使 用 “var ~ …” 来 匹配 
其 他 数据 。 你 可 以 在 Perl 中 看 到 这 种 匹配 表示 法 的 影子 (不 过 ，Perl 的 替换 操作 符 模 仿 的 
是 sed), Awk 的 早期 版 本 不 支持 正则 表达 式 替 换 , 不 过 现在 的 版 本 提供 了 sub (…) 操作 符 。 


sub(/mizpel/, "misspell") 


它 会 把 正则 表达 式 mizpel, 应 用 到 当前 行 ， 将 第 一 个 匹配 替换 为 misspel。 请 注意 , 在 
Perl (和 sed) 中 的 对 应 做 法 是 s/mizpel/misspell/, 


如 果 要 对 该 行 的 所 有 匹配 文本 进行 替换 ，Awk 使 用 的 不 是 /g 修饰 符 ， 而 是 另 一 个 运算 符 : 
gsub(/mizpel/, “misspell”), 


Tcl 


Tel 采用 的 是 程序 式 处 理 方法 ， 对 不 熟悉 Tcl 引用 惯例 (quoting conventions) 的 人 来 说 可 能 
很 迷惑 。 如 果 我 们 要 在 Tel 中 修正 错误 的 拼写 ， 可 以 这 样 : 


regsub mizpel Svar misspell newvar 


它 会 检查 变量 var PILAR, 把 mizpel, 的 第 一 处 匹配 替换 为 misspell, 把 替换 后 的 字 
符 串 存 人 变量 newvar (这 个 变量 并 没有 以 s 开 头 )。Tel 接收 的 第 一 个 参数 是 正则 表达 式 ， 
第 二 个 参数 是 目标 字符 串 ， 第 三 个 是 replacement 字符 种， 第 四 个 是 目标 变量 的 名 字 。Tel 
的 regsub 同样 可 以 接收 可 能 出 现 的 标志 位 ， 例 如 -all 用 来 进行 全 局 替换 ， 而 不 是 只 替换 
第 一 处 匹配 文本 。 


regsub -all mizpel 5var misspell newvar 


同样 ，-nocase 选项 告诉 正则 引擎 进行 不 区 分 大 小 写 的 匹配 (ESF egrep 的 -i SR, K 
者 Perl 的 /i 修饰 符 )。 


GNU Emacs 


GNU Emacs (下 文中 简称 Emacs) 是 功能 强大 的 文本 编辑 器 ， 它 可 以 使 用 elisp (Emacs lisp) 
作为 内 建 的 编程 语言 。 它 提供 了 正则 表达 式 的 程序 式 处 理 接 口 ， 以 及 数量 众多 的 函数 来 提 
供 各 种 服务 。 其 中 主要 的 一 种 是 “正则 表达 式 搜 索 - 前 进 (re-search-forward)”， 接收 参 
数 为 普通 字符 串 ， 将 它 作 为 正则 表达 式 来 处 理 。 然 后 从 文本 的 “当前 位 置 ” 开 始 搜索 , 直 
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到 第 一 处 匹配 发 生 ， 或 者 如 果 设 有 匹配 ， 就 一 直 前 进 到 字符 串 的 末尾 (用 户 调用 编辑 器 的 
“正则 表达 式 搜 索 (regexp search) ”的 功能 时 ， 就 会 执行 re-search-forward), 


如 表 3-3 (792) 所 示 ，Emacs 所 属 的 正则 流派 严重 依赖 反 斜 线 。 例 如 , \<\([a-zl+\ 儿 
([\n'\tj\l<[i^>]+>\)+N\1\>! 是 查找 重复 单词 的 表达 式 ， 可 以 用 来 解决 第 1 章 的 问题 。 但 
我 们 不 能 直接 使 用 这 个 正则 表达 式 ， 因 为 Emacs 的 正则 引擎 不 能 识别 \t 和 \n。 不 过 Emacs 
中 的 双 引 号 字符 串 则 可 以 ， 它 会 把 这 些 标 记 转 换 为 我 们 需要 的 制 表 符 和 换行 符 ， 传 给 正则 
引擎 。 在 使 用 普通 字符 串 提 交 正 则 表达 式 时 ， 非 常 有 用 。 但 其 缺陷 一 一 尤其 是 elisp 的 正则 
表达 式 的 缺陷 一 一 在 于 ， 此 流派 过 分 依赖 反 斜 线 了 ， 最 终 得 到 的 正则 表达 式 好 像 插 满 了 牙 
签 。 下 面 是 查找 下 一 组 重复 单词 的 函数 : 


(defun FindNextDbl () 


“move to next doubled word, ignoring <--> tags" (interactive) 
(re-search-forward "\\<\\(a-zZJ4#\\)\\C[\n \t] \\Il<{*>] 4>\\)4\\1L\\>") 
Wai 
) 


这 段 程序 加 上 (aefine-key global-map "\C-x\C-d" 'FindNextDb1), 就 可 以 使 用 “Control- 
x+ Control-d” 来 迅速 查找 重复 单词 了 。 


注意 事项 和 处 理 方式 : 小 结 


Care and Handling: Summary 


我 们 已 经 看 到 ， 函 数 很 多 ， 内 部 的 机 制 也 很 多 。 如 果 你 不 熟悉 这 些 语言 ， 可 能 现在 还 有 些 
困惑 。 不 过 请 不 必 担心 。 学 习 任何 特定 的 工具 软件 都 比 学 习 原 理 要 容易 。 
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Strings, Character Encodings, and Modes 


在 深入 讲解 常见 的 各 类 元 字符 之 前 ， 还 需要 了 解 一 些 重要 的 问题 :作为 正则 表达 式 的 字符 
串 ， 字 符 编 码 和 匹配 模式 。 


这 些 概念 并 不 复杂 ， 在 理论 和 实践 中 都 是 如 此 。 不 过 ， 对 其 中 的 大 多 数 来 说 ， 因 为 各 种 实 
现 方式 之 间 存 在 细小 差异 ， 我 们 很 难 预先 知道 它们 准确 的 实际 使 用 方式 。 下 一 节 涵 盖 了 若 
干 你 将 面 对 的 常见 问题 ， 以 及 一 些 复杂 的 问题 。 


作为 正则 表达 式 的 字符 串 


Strings as Regular Expressions 


这 个 概念 并 不 复杂 : 对 除 Perl, awk, sed 之 外 的 大 多 数 语言 来 说 ， 正 则 引擎 接收 的 是 以 普 
通 字 符 串 形式 提供 的 正则 表达 式 ， 这 些 字符 申 文 字 类 似 “^From: (.*)”。 对 大 多 数 程序 员 ， 
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尤其 新 人 行 的 程序 员 来 说 ， 有 一 点 难以 理解 : 在 构造 作为 正则 表达 式 的 字符 串 时 ， 他 们 还 
需要 留意 编程 语言 定义 的 字符 串 元 字符 。 


每 种 语言 的 字符 串 文 字 都 规定 了 自己 的 元 字符 ， 有 些 语 言 甚至 包含 了 多 种 字符 串 文字 ， 所 
以 不 存在 普 适 性 的 规则 ， 不 过 背后 的 概念 是 一 样 的 。 许 多 语言 的 字符 串 文字 能 够 识别 转 义 
序列 ， 例 如 \z、\\ 和 \x2A， 在 生成 字符 串 对 应 的 数据 时 ， 会 正确 地 解释 这 些 记 号 。 与 正则 
表达 式 相关 的 最 常见 的 一 点 就 是 ， 在 字符 串 文字 中 ， 必 须 使 用 两 个 紧 挨 在 一 起 的 反 斜 线 才 
能 表示 正则 表达 式 中 的 反 斜 线 。 例 如 ,为 了 表示 正则 表达 式 中 的 "\n,， 必须 在 字符 串 中 使 用 


Se 


如 果 筷 了 添加 反 斜 线 , 而 只 是 使 用 " \n", 在 大 多 数 语 言 中 , 结果 四 ,恰好 等 于 "nj (译注 2)。 
不 过 ， 事 实 上 ， 如 果 正 则 表达 式 是 宽松 排列 格式 的 /x 类 型 , 四 ERREAZ, n 仍然 留 在 
正则 表达 式 中 , 匹配 一 个 空 行 。 忘 记 这 一 点 的 程序 员 真 该 打 。 下 面 的 表 3-4 列 出 了 一 些 包括 
\t 和 \x2A (2A 是 “*" 符号 的 ASCII 编码 ) 的 例子 。 表 格 中 的 第 二 对 例子 展示 了 忽略 字符 
串 文字 元 字符 会 导致 的 意外 结果 。 


表 3-4: 关于 字符 串 文字 的 若干 例子 













\t\x2a” 
‘\t\x2ay 
制 表 待 和 之 后 的 星 号 
制 表 符 和 之 后 的 星 号 


语言 不 同 ,字符 串 文字 也 不 相同 , 不 过 有 的 差异 大 到 连 “、” 都 不 算 元 字符 。 例 如 ，VB.NET 
的 字符 串 文字 只 有 一 个 元 字符 ， 就 是 双 引 号 。 下 一 节 介 绍 了 几 种 常用 语言 的 字符 串 文字 。 
无 论 规定 如 何 ， 我 们 在 使 用 时 都 不 要 忘记 考虑 “在 编程 语言 的 字符 串 处 理 结束 之 后 ， 正 则 
引擎 接收 到 的 是 什么 ? ” 


作为 正则 表达 式 
能 够 匹配 












Java 的 字符 串 

Java 的 字符 串 跟 上 面 提 到 的 很 类 似 ， 它 们 由 双 引 号 标注 ， 反 斜 线 是 元 字符 。 支 持 常 见 的 字 
TAE, fán t (MAF), n’ (TRF), V (ERRES). FR HRR 
支持 的 反 斜 线 转 义 序列 会 出 错 。 


译注 2: 此 时 "\n" 是 在 字符 事 中 识别 的 ， 而 不 是 由 正则 引擎 识别 。 


www.TopSage.com 


字符 串 ， 字 符 编码 和 匹配 模式 103 


VB.NET 的 字符 串 


VB.NET 中 的 字符 串 同 样 是 由 双 引 号 标注 的 ,不 过 它们 与 Java 的 字符 串 有 很 大 差别 .VB.NET 
的 字符 串 只 能 识别 一 个 元 字符 : 两 个 连续 的 双 引 号 , 代表 字符 串 中 的 双 引 号 。 例 如 "he saiad 
"nhi""\." 的 值 就 是 he said "hi"\.5, 


CHRIS FT R 


尽管 微软 的 .NET Framework 中 所 有 语言 在 内 部 共享 同一 台 正 则 引擎 ， 但 创建 正则 表达 式 时 
它们 有 各 自 的 规定 。 我 们 刚刚 看 到 ，Visual Basic 的 字符 串 文 字 非 常 简单 。 与 之 不 同 ，C# 语 
言 有 两 种 类 型 的 字符 串 文 字 。 


C# 支 持 与 导论 中 类 似 的 常见 的 双 引 号 字符 串 ,， 只 是 用 “"” 而 不 是 \ 来 表示 双 引 号 。 不 过 ， 
C# 也 支持 “原生 字符 串 (verbatim strings)”( 译 注 3)， 其 形式 为 6"…"。 原 生字 符 串 不 能 识 
别 反 斜 线 序列 ， 不 过 其 中 也 有 一 个 特殊 的 转 义 序列 ， 一 对 双 引 号 表示 目标 字符 串 中 的 一 个 
双 引 号 。 也 就 是 说 ， 你 可 以 使 用 "\\t\\x2aA'" 或 者 @e"\t\x2A'" 来 生成 \t\x2A!。 因 为 这 种 方 
式 很 简单 ， 一 般 都 用 e"…" 的 原生 字符 串 来 表示 正则 表达 式 。 


PHP 的 字符 串 


PHP 也 提供 了 两 种 类 型 的 字符 串 , 不 过 无 一 与 C# 中 的 相同 。 在 PHP 的 双 引 号 字符 串 中 可 以 
使 用 常见 的 反 斜 线 序列 一 一 例如 “\n" ， 但 也 可 以 像 Perl 那样 进行 变量 插值 (977), DAT 
以 使 用 特殊 的 序列 {(…} ， 把 执行 花 括 号 内 代码 的 执行 结果 插入 字符 串 。 


PHP 的 双 引 号 字符 串 的 独特 性 在 于 ， 你 可 能 倾向 于 在 正则 表达 式 中 加 入 多 余 的 反 斜 线 ， 不 
过 PHP 的 另 一 种 特性 能 够 缓解 这 种 现象 。 对 Java 和 C# 的 字符 串 文字 来 说 ， 字 符 串 中 如 果 
出 现 不 能 明确 识别 为 特殊 字符 的 反 斜 线 序列 会 导致 错误 ， 而 在 PHP 的 双 引 号 字符 串 中 ， 这 
种 序列 会 原封 不 动 地 从 字符 串 中 传 过 来 。PHP 的 字符 串 能 够 识别 \t ， 所 以 你 需要 用 “\\t” 
KERA, 不 过 如 果 使 用 “\w”， 我 们 仍然 得 到 "wi, 因为 \w 不 属于 PHP HFE R REO IR 
别 的 转 义 序列 。 这 个 额外 的 特性 ， 虽 然 有 时 候 很 顺手 ， 也 增加 了 PHP 双 引 号 字符 串 的 复杂 
程度 ， 所 以 PHP 提供 了 更 加 简单 的 单 引 号 字符 串 。 


PHP 的 单 引 号 字符 串 类 似 VB.NET 字符 串 和 C# 的 e"…" 字 符 申 ,都 属于 “格式 整齐 的 (unclut- 
tered)” FFR, REPARE. Æ PHP 的 单 引 号 字符 串 中 ，\ RBIS, \\ Raa 


译注 3: verbatim 表示 “原封 不 动 的 ， 一 字 不 差 的 "， 故 此 处 翻译 为 “原生 ”。 
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线 。 任 何其 他 字符 〈 包 括 任何 反 斜 线 ) 都 不 会 被 识别 为 特殊 字符 ， 而 会 被 当 作 字符 的 值 。 
也 就 是 说 ，' \t\x2A' 创 建 \t\x2A1。 因 为 单 引号 字符 串 很 简单 ， 用 它 来 表示 PHP 的 正则 表 
达 式 非常 方便 。 


PHP 的 单 引号 字符 串 在 第 10 章 有 详细 讲解 (7445). 


Python 的 字符 串 


Python 提供 了 好 几 种 字符 串 文 字 。 单 引号 和 双 引 号 都 可 以 用 来 创建 字符 串 ， 不 过 与 PHP 不 
同 的 是 ， 这 两 种 方法 没有 区 别 。Python 也 提供 了 “三 重 引用 (triple-quoted)” 的 字符 串 ， 也 
BE '' 或 者 """…"""， 它 们 可 以 包含 未 转 义 的 换行 符 。 这 4 种 类 型 都 支持 常用 的 反 
斜 线 序列 ， 例 如 \n， 不 过 和 PHP 一 样 ， 它 们 也 会 把 不 能 识别 的 反 斜 线 序列 作为 纯 字 符 序列 
来 对 待 。 而 在 Java 和 C# 中 ， 这 些 序列 会 被 出 错 。 


与 PHP 和 C# 一 样 ，Python 也 提供 了 另 一 种 字符 申 文 字 ， 也 就 是 “ 原 字符 串 (raw string)”, 
它 类 似 C# 中 的 e"…"，Python 在 以 上 4 种 表示 法 前 添加 'r' 来 表示 纯 字符 捉 。 例 如 ， 
r"\t\x2A" 表 示 "\t\x2AJ。 与 其 他 语言 不 同 的 是 ， 在 Python UREA, PA RRR 
都 会 保留 ， 即 使 是 用 来 转 义 双 引 号 的 〈 所 以 双 引 号 可 以 保存 在 字符 串 中 ) 也 是 如 此 : r'he 
said \"hi\"\. "表示 he said \"hi\"\.1 在 使 用 正则 表达 式 时 ， 这 并 不 是 一 个 真正 的 问 
W., AA Python 的 正则 表达 式 流 派 把 人 "识别 为 ""， 不 过 如 果 你 喜欢 ， 你 可 以 忽略 这 些 细 
节 ， 使 用 这 4 种 纯 字 符 串 中 的 任意 一 种 : r'he said "hi"\.' 


Tel 中 的 字符 串 


Tel 与 其 他 语言 都 不 一 样 ， 因 为 它 没有 真正 的 字符 申 变 量 。 相 反 ， 命 令 行 被 分 解 成 “单词 ”， 
Tel 的 命令 把 这 些 单词 作为 字符 串 、 变 量 名 和 正则 表达 式 ， 或 者 其 他 适合 的 类 型 。 因 为 命令 
行 被 分 解 成 单词 ， 常 见 的 反 斜 线 序列 ， 例 如 \n， 能 够 识别 和 转换 ， 而 无 法 识别 的 反 斜 线 序 
列 则 被 忽略 。 如 果 愿 意 ， 你 可 以 在 单词 两 端 添 加 双 引 号 ， 不 过 这 并 不 是 必须 的 ， 除 非 中 间 
存在 空格 。 


Tel 同样 也 有 和 类 似 Python 的 纯 字 符 捉 类 似 的 原 字 符 申 类 型 ， 不 过 Tol 使 用 花 括 号 {…}, 而 
不 是 r'…' ,在 花 括号 之 间 , 除 \n 之 外 的 所 有 内 容 都 会 原封 不 动 地 保存 下 来 , 所 以 {\t\x2A} 
表示 \t\x2AJ。 


在 花 括 号 之 内 ， 你 可 以 按 自己 的 意愿 添加 多 组 括号 。 非 嵌 套 的 括号 必须 用 反 斜 线 转 义 ， 不 
过 反 斜 线 会 保留 在 字符 串 之 中 。 


Iil 
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Perl 的 正则 表达 式 文字 


至 今 为 止 ， 我 们 曾 看 到 过 的 Perl 的 例子 中 ， 正 则 表达 式 都 是 以 文字 方式 提供 的 (“正则 表达 
式 文字 (regular expression literals) ") 。 不 过 ， 我 们 也 可 以 用 字符 串 变量 提交 正则 表达 式 ， 例 
如 : 


$str =~ m/(\w+)/; 
也 可 以 这 样 ; 

Sregex = '(\w+)'; 

$str =~ S$regex; 
或 者 是 这 样 

Sregex = "({\\w+)"; 

$str =~ regex; 


(不 过 ， 使 用 字符 串 可 能 会 大 大 降低 效率 ， 字 242，348) 。 
对 于 以 文字 方式 提交 的 正则 表达 式 ，Perl 会 提供 一 些 额外 的 特性 ， 包 括 ; 
° ”变量 插值 (把 变量 的 值 写 入 正则 表达 式 )。 


。 通过"\Q-…\E, (7113) 支持 文字 文本 。 
* EM (optional) 支持 \N{name} 结 构 ， 这 样 就 能 通过 正式 的 Unicode 名 来 指定 字符 。 例 


如 ， "\N{INVERTED EXCLAMATION MARK}Hola!, 能 够 匹配 ‘iHola! '。 


在 Perl 中 ， 正 则 表达 式 文字 会 作为 特殊 的 字符 串 进行 解析 。 实 际 上 ， 这 些 特性 在 Perl 双 引 
号 字符 种 中 也 有 提供 。 必 须 说 明 的 一 点 是 ， 这 些 特 性 不 是 由 正则 引擎 提供 的 。 因 为 Perl 中 
使 用 的 绝 大 多 数 正则 表达 式 都 是 作为 正则 表达 式 文本 的 ， 许 多 人 认为 0…\E 属 于 Perl 的 
正则 表达 式 语 言 ， 不 过 如 果 你 用 正则 表达 式 从 一 个 配置 文件 (或 者 命令 行 ) 读 入 数据 ， 知 
道 哪些 特性 是 由 语言 的 哪些 部 分 提供 的 就 很 重要 了 。 


更 多 细节 ， 请 参考 第 7 MH 288 页 。 


字符 编码 


Character-Encoding Issues 


字符 编码 是 一 种 写 明 的 共识 ， 它 规定 不 同 数值 的 字 节 应 该 如 何 解释 。 在 ASCII 编码 中 , 值 
为 十 进 制 110 的 字 节 代表 字符 “n ， 不 过 在 EBCDIC 编码 中 代表 “> '" 。 为 什么 会 这 样 ? 
为 这 是 由 不 同 的 人 规定 的 ， 没 有 明确 的 标准 判断 各 种 编码 的 优 劣 。 字 节 的 值 是 一 样 的 ， 不 
一 样 的 是 解释 。 
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ASCI 只 定义 了 单个 字 节 能 够 代表 的 所 有 数值 的 一 半 ，ISO-8859-1 编码 (通常 称 为 “Latin-l 
编码 ) 填补 了 下 面 的 空间 ， 其 中 增加 了 读音 字符 (accented character) 和 特殊 符号 ， 因 而 
能 够 被 更 多 的 语言 所 使 用 。 对 这 种 编码 来 说 ， 值 为 十 进 制 数 234 的 字 节 被 解释 为 s， 而 在 
ASCI 中 没有 定义 。 


对 我 们 来 说 ， 重 要 的 问题 在 于 : 如 果 我 们 期 望 使 用 某 种 特定 编码 的 数据 ， 程 序 是 否 会 这 样 
做 ? 例如， 如果 我 们 使 用 Latin-1 编码 中 值 分 别 为 234、116、101 和 115 的 4 个 字 节 (表示 
法 语 单词 “etes")， 我 们 期 望 使 用 正则 表达 式 “\w+S$ 或 者 “\bi 来 匹配 。 如 果 程 序 中 的 \w 
或 者 \b 能 够 支持 Latin-1 字符 ， 就 可 以 正常 工作 ， 否 则 不 行 。 


编码 的 支持 程度 


编码 有 许多 种 ， 当 你 需要 关注 一 种 具体 的 编码 时 ， 你 需要 考虑 的 重要 问题 包括 : 
” ”程序 能 够 识别 这 种 编码 吗 ? 

© ”程序 如 何 决 定 采 用 哪 种 编码 来 处 理 这 些 数据 ? 

"正则 表达 式 对 这 种 编码 的 支持 程度 如 何 ? 

编码 的 支持 程度 包括 若干 重要 的 问题 : 


” ”是否 能 够 支持 多 字 节 字符 ?点 号 和 [^x] 之 类 的 表达 式 是 匹配 单个 字符 ， 还 是 单个 字 
节 ? 


*  \w、\d、\s、\b 之 类 的 元 字符 ， 是 否 能 识别 编码 中 的 所 有 字符 ? 例如， 虽然 6 也 是 一 
个 字符 ，\w 和 \b 能 处 理 吗 ? 


° ”程序 是 否 会 扩展 对 字符 组 的 解释 ? [a-z] 能 否 匹 配 e? 
。 ”不 区 分 大 小 写 的 匹配 是 否 能 对 所 有 字符 有 效 ? 例如 ，e 和 上 人 是 否 一 样 ? 


有 时 候 事情 不 像 看 起 来 那么 简单 。 例 如 ，java.util.regex 包 的 \b 能 够 正确 识别 Unicode 
中 所 有 与 单词 相关 的 字符 ， \w 则 不 能 ( 它 只 能 匹配 ASCI 中 的 字符 )。 我 们 会 在 本 章 的 其 
他 部 分 看 到 更 多 的 例子 。 


Unicode: 
Unicode 


Unicode 究竟 是 什么 ， 似 乎 存在 许多 误解 。 从 最 基本 的 意义 上 说 ，Unicode 是 一 组 字符 设 定 ， 
或 者 是 从 数字 和 字符 之 间 的 逻辑 映射 的 概念 编码 。 例 如 ， 韩 语 字 符 针 对 应 数字 49,333, ik 
个 数值 ， 称 为 一 个 “代码 点 (code point)”, 通常 用 十 六 进 制 来 表示 , 以“U+” 开 头 。49,333 
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换算 成 十 六 进 制 是 c0B5， 所 以 针 的 代码 就 是 U+c0B5。 针 对 许多 字符 ，Unicode 还 定义 了 一 
组 属性 ， 例 如 3 是 一 个 数字 ， 而 记 是 与 6 对 应 的 大 写字 母 。 


目前 ， 我们 还 没有 谈 到 这 些 数值 在 计算 机 上 是 如 何 编 码 为 数据 的 。 这 样 的 编码 方式 有 许多 ， 
包括 UCS-2 编码 (所 有 的 字符 都 占用 两 个 字 节 )，UCS-4 编码 (所 有 字符 占用 4 个 字 节 )， 
UTF-16 (大 部 分 字符 都 占用 两 个 字 节 ， 有 一 些 字符 占用 4 个 字 节 )， 以 及 UTF-8 编码 (用 1 
到 6 个 字 节 来 编码 字符 )。 具 体 的 程序 内 部 到 底 使 用 哪 种 编码 通常 不 需要 用 户 来 关心 。 用 户 
只 需要 关心 如 何 将 外 部 数据 (例如 从 文件 读 入 的 数据 ) 从 已 知 的 编码 (ASCII, Latin-1、 UTF-8 
等 ) 转换 给 具体 的 程序 。 支 持 Unicode 的 程序 通常 提供 了 多 种 编码 和 解码 程序 来 进行 这 些 转 
换 。 


支持 Unicode 的 程序 中 的 正则 表达 式 通 常 支持 \unum 元 序列 , 用 来 匹配 一 个 具体 的 Unicode 
字符 (=117)。 这 个 数值 通常 是 一 个 4 位 的 十 六 进 制 数 ， 所 以 \uc0B5 ARA. EER 
楚 的 是 ，\ucoB5 的 意思 是 “匹配 编号 为 U+C0B5 的 Unicode 字符 ”， 而 没有 说 具体 需要 比较 
哪些 字 节 , 因为 具体 的 字 节 是 由 代表 这 个 Unicode 代码 点 的 编码 方式 在 内 部 决定 的 。 如 果 程 
序 内 部 使 用 的 是 UTF-8 编码 ， 这 个 字符 就 用 3 个 字 节 表示 。 不 过 使 用 支持 Unicode 程序 的 
用 户 , 并 不 需要 关心 这 个 (也 有 时 候 需要 ,例如 使 用 PHP 的 preg 套件 和 模式 修饰 符 u 7447). 


还 有 一 些 你 或 许 需 要 知道 的 相关 知识 …… 


字符 ， 还 是 组 合 字符 序列 


一 般 人 眼 里 的 “字符 ”(character) 并 不 都 会 被 Unicode 或 者 支持 Unicode 的 程序 (RAE 
则 引擎 ) 看 作 一 个 字符 。 例 如 ， 有 人 或 许 认 为 à 是 一 个 字符 ， 但 是 在 Unicode 中 ， 它 可 能 
由 两 个 代码 点 构成 ，U+0061 (a) 和 钝 重音 (grave accent) U+0300 (')。Unicode 提供 了 许多 
组 合 字符 (combining character) ， 用 来 修饰 (结合 ) 一 个 基本 字符 。 这 会 给 正则 引擎 带 来 些 
麻烦 ， 例 如 ， 点 号 是 应 该 匹配 单个 代码 点 呢 ， 还 是 整个 Ut+0061 和 U+0300? 
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在 实践 中 ， 许 多 程序 似乎 把 “字符 ”和 “代码 点 ” 视 为 等 价 ， 也 就 是 说 ， 点 号 可 以 匹配 单 
个 的 代码 点 , 无 论 是 基本 字符 还 是 组 合 字符 。 所 以 , à (U+0061 加 上 0+0300) REH ^.. S 
匹配 ， 而 不 是 .$j。 


Perl 和 PCRE (以 及 PHP 的 preg 套件 ) 支持 \X 元 序列 ， 这 样 点 号 (“匹配 单个 字符 ”) 就 能 
够 匹配 一 个 结合 了 组 合 字符 的 基本 字符 。 详 见 第 120 页 。 


在 支持 Unicode 的 编辑 器 中 输入 正则 表达 式 时 , 一 定 要 记 住 组 合 字符 的 概念 。 如果 一 个 带 音 
调 的 字符 ， 例 如 A， 被 正则 表达 式 当 作 “Aa” 和 ““， 很 可 能 无 法 匹配 字符 串 中 单个 代码 点 
表示 的 A (下 一 节 讨 论 单 代 码 点 的 情况 )。 同 样 ， 对 正则 引擎 来 说 它 是 两 个 不 同 的 字符 ， 所 
以 [… 大 在 字符 组 中 添加 了 两 个 字符 ， 等 于 Cea eed. 


同样 ,如果 两 个 代码 点 的 字符 一 一 例如 A 一 一 后 面 跟 有 一 个 量词 , 量词 作用 的 其 实 是 第 二 个 
代码 点 ， 也 就 是 ‘a’ to 


用 多 个 代码 点 表示 同一 个 字符 


从 理论 上 说 ，Unicode 应 该 是 代码 点 和 字符 之 间 的 一 一 映射 (译注 4) ， 不 过 在 许多 情况 下 ， 
一 个 字符 可 能 有 多 种 表现 方式 。 前 一 节 中 我 们 看 到 a 可 以 表示 为 0+0061 加 上 U+0300。 不 
过 , 它 也 可 以 用 单个 代码 点 U+00E0, 为 什么 会 出 现 这 种 情况 ? 是 为 了 保证 Unicode 和 Latin-1 
之 间 转 换 的 简易 性 ,如 果 我 们 有 和 需要 转换 为 Unicode 的 Latin-] 文本 ,a 可 能 被 转换 为 U+00E0。 
不 过 , 也 可 以 转换 为 U0+0061 和 u+0300 MAA. 通常 ,这 种 转换 是 自动 的 ， 用 户 无 法 干预 ， 
不 过 Sun 的 java.util.regex 包 提 供 了 一 种 特殊 的 匹配 符 , CANON_EQ, 保证 能 够 匹配 “在 
规则 中 等 价 (canonically equivalent)” 的 字符 ， 无 论 它们 在 Unicode 中 使 用 什么 存储 方式 
(7368), 


与 此 相关 的 问题 是 ， 不 同 的 字符 可 能 无 法 从 外 观 上 区 分 ， 如 果 需 要 检查 生成 的 文本 ， 这 会 
带 来 混乱 。 例 如 ， 罗 马 字母 1 (0+0049) 可 能 与 1， 也 就 是 希腊 字母 Iota (U+0399) RM. 
这 个 字符 添加 希腊 语 置 号 之 后 得 到 i 或 者 i, 编码 也 增加 到 4 种 (U+00CF; U+03AA; U+0049 
U+0308; U+0399U+0308)。 也 就 是 说 ， 如 果 需 要 匹配 1， 你 可 能 需要 手动 指定 这 4 种 可 能 。 
类 似 的 例子 还 有 许多 。 


译注 4: 即 离 散 数学 中 的 “ 双 射 ”。 
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还 有 许多 单个 字符 看 起 来 不 只 一 个 字符 。 例 如 Unicode 定义 了 一 个 叫做 “souaRE Hz” 
(U+3390) 的 字符 。 这 很 像 两 个 普通 字符 Hz 的 组 合 (U0048 U+007A)。 


尽管 Hz 之 类 的 特殊 字符 的 用 途 在 目前 非常 有 限 ， 但 在 将 来 ， 它们 的 应 用 肯定 会 增加 文本 处 
理 程序 的 复杂 性 , 所 以 在 处 理 Unicode 时 不 应 忘记 这 些 问题 。 用 户 可 能 会 期 望 ,处 理 这 样 的 
数据 时 ， 必 须 能 够 处 理 正常 空格 (U+0020) 和 非 换行 空格 (no-break spaces) (v+00A0), 或 
许 还 需要 包括 Unicode 中 其 他 的 成 打 的 空白 字符 之 中 的 任意 一 个 。 


Unicode 3.1+ 和 U+FFFF 之 后 的 代码 点 


Unicode Version 3.1 诞生 于 2001 年 中 期 ， 增加 了 U+FFFF 之 后 的 代码 点 (之 前 版 本 的 Unicode 
也 支持 这 些 代码 点 ， 但 是 在 Version 3.1 以 前 ， 它 们 都 是 没有 定义 的 ) lán, 代表 音乐 谱 号 
C (Clef) 的 字符 对 应 代码 点 U+1D121。 之 前 那些 仅 支 持 低 于 U+FFFF 字符 的 程序 无 法 处 理 
这 种 情况 。 大 多 数 程序 的 \unum 只 能 支持 最 多 4 位 十 六 进 制 数值 。 


能 够 处 理 这 类 新 字符 的 程序 通常 提供 了 \x (mum) 序列 ,num 可 以 为 任意 多 位 数字 (这 是 为 了 
增强 只 支持 4 位 数字 的 \unum 表示 法 )。 你 可 以 使 用 \x{1D121) 来 匹配 这 类 “ 谱 号 C” 之 类 
的 字符 。 


Unicode 中 的 行 终止 符 


Unicode 定义 了 多 个 用 于 表示 行 终止 符 的 字符 (以 及 一 个 双 字 符 序列 ) ， 详 见 表 3-5, 
表 3-5; Unicode 行 终止 符 













RM E EO EA 
LF U+000A ASCII 4% #7 

vr ASCI SEMRA 

FF wooo ason ana 

CR ASCII m$ 

CRLF ASCI WERA 

NEL Unicode 换行 

LS Unicode FEAA 

Ps [0 O | Unicode a 
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如 果 行 终止 符 获得 了 完全 的 支持 ， 它 会 影响 文本 行 从 文件 (在 脚本 语言 中 ， 还 包括 程序 读 
取 的 文件 ) 读 入 的 方式 。 在 使 用 正则 表达 式 时 ， 它 们 影响 点 号 (7111), R's, SANZ 
的 匹配 (7112), 


正则 模式 和 匹配 模式 


Regex Modes and Match Modes 


许多 正则 引擎 都 支持 多 种 不 同 的 模式 ， 它 们 规定 了 正则 表达 式 应 该 如 何 解释 和 应 用 。 我 们 
已 经 看 过 Perl 的 /x 修饰 符 (容许 自由 空格 和 注释 的 正则 模式 了 72) 和 /i 修饰 符 (进行 不 区 
分 大 小 写 匹 配 的 模式 了 47)。 


在 许多 流派 中 ， 模 式 可 以 完全 作用 于 整个 表达 式 ， 也 可 以 单独 应 用 于 某 个 子 表达 式 。 整 体 
应 用 是 通过 修饰 符 或 者 选项 (options) 来 决定 的 ， 例 如 Perl 的 /i ，PHP 的 模式 修饰 符 i 
(7446), Ñl java.util.regex fy Pattern.CASE_INSENSITIVE 标志 (了 99)。 如 果 支 持 ， 
应 用 到 目标 字符 牛 中 部 分 文本 的 模式 是 通过 一 个 正则 结构 来 实现 的 ， 例 如 用 '(?i) ,来 开启 
不 区 分 大 小 写 的 匹配 ,'(?-i), 来 停 用 该 匹配 。 有 的 流派 也 支持 '(?i:…), 和 '(?-i:…) ,来 启 
用 或 者 停 用 对 括号 内 的 子 表达 式 进 行 不 区 分 大 小 写 匹 配 的 功能 。 


本 章 后 面部 分 会 介绍 (7135) 如 何在 正则 表达 式 中 设置 这 些 模式 。 在 本 节 ， 我 们 只 看 看 大 
多 数 系统 提供 的 常见 模式 。 


不 区 分 大 小 写 的 匹配 模式 


此 模式 很 常见 ， 它 在 匹配 过 程 中 会 忽略 字母 的 大 小 写 ， 所 以 pb 可 以 匹配 “b” A ‘e. ie 
功能 也 必须 依赖 于 正确 的 字符 编码 支持 ， 所 以 之 前 我 们 提 到 的 注意 事项 对 它 都 适用 。 


在 历史 上 ， 不 区 分 大 小 写 的 匹配 支持 一 直 不 太 令 人 满意 ， 被 bug 困扰 ， 好 在 如 今 大 部 分 已 
经 修正 了 。 不 过 ，Ruby 不 区 分 大 小 写 的 匹配 仍然 不 能 处 理 八进制 和 十 六 进 制 的 转 义 字符 。 


不 区 分 大 小 写 的 匹配 存在 特殊 的 与 Unicode 相关 的 问题 (在 Unicode 中 称 为 “粗略 匹配 (loose 
matching)”)。 简 单 地 说 ,就 是 并 非 所 有 的 ASCI 字母 和 数字 字符 都 存在 大 小 写 形式 ， 而 某 
些 字符 在 作为 单词 首 字母 时 会 有 单独 的 标题 格式 (title case)。 有 时候 在 大 写 和 小 写 之 间 并 
没有 明显 的 一 对 一 上 映射。 常见 的 例子 是 希腊 字母 西 格 马 ， 它 有 两 个 小 写 形式 5 和 o，, 在 
不 区 分 大 小 写 的 模式 中 ， 这 三 者 应 该 是 等 价 的。 根据 我 的 测试 ， 只 有 Perl 和 Java 的 java. 
util. regex 能 够 正确 处 理 它们 。 


i 
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另 一 个 问题 是 ， 有 时 候 单个 字符 会 对 应 到 一 组 字符 。 常 见 的 例子 是 大 写 的 8 是 两 个 字符 的 
组 合 “ss”"。 这 种 情况 只 有 Perl 能 够 正确 处 理 。 


Unicode 还 带 来 了 一 些 问 题 。 例 如 单字 符 了 (U+01F0) 没有 对 应 的 大 写 形式 的 单字 符 。 相 反 ， 
了 需要 使 用 组 合 字 符 〈( 字 107)，U+004A 和 U+030C。 而 MI 应 该 在 不 区 分 大 小 写 的 模式 中 
是 等 价 和 的 。 类 似 的 还 有 一 对 三 的 例子 。 幸 好 ， 这 些 都 不 是 常用 字符 。 


宽松 排列 和 注释 模式 


此 模式 会 忽略 字符 组 外 部 的 所 有 空白 字符 。 字 符 组 内 部 的 空白 字符 仍然 有 效 (java.util. 
regex 是 例外 ) ,# 符 号 和 换行 符 之 间 的 内 容 视 为 注释 。 我 们 已 经 见 过 Perl (772), Java (798) 
Al VB.NET (7°99) 中 相应 的 例子 。 


不 过 , 在 java.util.regex 中 ， 字 符 组 之 外 的 所 有 空白 字符 并 非 都 会 被 忽略 ， 而 是 作为 一 
个 “无 意义 元 字符 (do-noting metacharacter)”。 在 理解 123, 时 ， 这 种 区 分 很 重要 ， 因 为 
ERR 3, 接 在 仆 12, 之 后 ， 而 不 是 有 些 人 以 为 的 八 123，。 


当然 ,“ 空 白字 符 ” 的 定义 取决 于 所 采用 的 字符 编码 的 定义 ， 以 及 此 编码 对 空白 字符 的 支持 
程度 。 大 多 数 程序 只 能 识别 ASCII 的 空白 字符 。 


点 号 通 配 模式 (dot-match-all match mode， 也 叫 “ 单 行 模式 "”) 


通常 ， 点 号 是 不 能 匹配 换行 符 的 。 最 初 的 Unix 正则 表达 式 工 具 是 逐 行 处 理 的 ， 直 到 sed 和 
lex 出 现 之 后 ， 才 提出 匹配 换行 符 的 要 求 。 那 时 候 ， 人 们 常用 '.* 来 匹配 “本 行 中 的 其 他 内 
容 (the rest of the line)”, 为 了 保证 一 致 ， 新 的 语法 不 能 修改 '.*, 的 定义 ( 注 9)。 所 以 , 能 
够 处 理 多 行文 本 的 工具 (例如 文本 编辑 器 ) 通常 不 容许 点 号 匹配 换行 符 。 


对 现代 编程 语言 来 说 ， 点 号 能 够 匹配 换行 符 的 模式 和 不 能 匹配 的 模式 同样 有 用 。 这 两 种 模 
式 哪个 更 方便 ， 取 决 于 具体 的 情况 。 许 多 程序 提供 了 两 种 方法 供 正则 表达 式 选择 。 


这 种 常规 标准 也 有 少数 例外 的 情况 。 支 持 Unicode 的 系统 ， 例 如 在 Sun 的 正则 表达 式 包 ， 
点 号 能 够 匹配 未 使 用 此 模式 时 点 号 不 能 匹配 的 所 有 单字 符 Unicode FTA ik FF (7109), 在 


注 9: Ken Thompson (ed 的 作者 ) 向 我 解释 说 ， 这 样 '.*) 变 得 “非常 古怪 ”。 
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Tel 的 普通 模式 中 , 点 号 能 够 匹配 任何 字符 , 但 是 在 其 特殊 的 “区 分 换行 (newline-sensitive)” 
和 “部 分 区 分 换行 (partial newline-sensitive)” 的 匹配 模式 下 ， 点 号 和 排除 型 字符 组 都 不 能 
匹配 换行 符 。 


不 幸 的 命名 


/s 修饰 符 对 应 的 匹配 模式 第 一 次 出 现在 Perl 时 , 被 称 为 “单行 文本 模式 (single-line mode)”, 
这 个 不 幸 的 命名 一 直 是 混乱 的 起 源 , 因为 与 下 一 节 讨 论 的 “多 行文 本 模式 (multiline mode)” 
比较 起 来 ， 它 似乎 与 和 '$ 没有 关系 。 其 实 “ 单 行文 本 模式 ” 指 的 是 ,点 号 不 受 限制 ,可 
以 匹配 任何 字符 。 


增强 的 行 锚 点 模式 (Enhanced line-anchor match mode， 也 叫 “ 多 行文 本 模式 ”) 


增强 的 行销 点 模式 会 影响 到 行 锁 点 A's 的 匹配 。 通 常情 况 下 ， 锚 点 ”不 能 匹配 字符 串 
内 部 的 换行 符 ， 而 只 能 匹配 目标 字符 串 的 起 始 位 置 。 但 是 在 此 增强 模式 下 ， 它 能 够 匹配 字 
符 串 中 内 菊 的 文本 行 的 开头 位 置 。 前 一 章 出 现 了 这 样 的 例子 (69)， 当 时 我 们 用 Perl 开发 
把 文本 内 容 转换 为 超 文本 内 容 程 序 。 其 中 ， 所 有 的 文本 保存 在 一 个 字符 串 中 ， 所 以 我 们 可 
以 通过 查找 -替换 功能 用 s/^$/<p>/mg 来 把 “…tags. A) Mits” A “tags. 
<p>Btrs…”。 该 替换 把 空 “ 行 ”替换 为 段落 tag. 


$1 也 是 这 样 , 尽管 '$, 在 正常 情况 下 的 匹配 的 基本 规则 比较 难 理解 (7129), 不 过 , 就 本 节 
来 说 ， 我 们 只 需要 记 住 , '$, 可 以 匹配 字符 串 内 部 的 换行 符 ， 就 足够 了 。 


支持 此 模式 的 程序 通常 还 提供 了 Va A \ zu, 它们 的 作用 与 普通 的 "~, 和"S$ 一样, 只 是 在 此 
模式 下 它们 的 意义 不 会 发 生变 化 。 也 就 是 说 “ai A \ 2) 永远 不 会 匹配 字符 串 内 部 的 换行 符 。 
有 些 实现 方式 中 ，$ 和 仆 2 能 够 匹配 字符 串 内 部 的 换行 符 , 不 过 它们 通常 会 提供 \z,, 唯一 
匹配 整个 字符 串 的 结尾 位 置 。 详 见 129 页 。 


对 点 号 来 说 ， 常 用 标准 有 一 些 例外 。 在 GNU Emacs 之 类 的 文本 编辑 器 中 ， 行 锚 点 通常 能 够 
匹配 字符 串 中 的 换行 符 , 因为 在 编辑 器 中 这 样 非常 有 意义 。 另 一 方面 , lex H's, 只 能 匹配 换 
行 符 之 前 的 位 置 (其 中 “的 意义 与 常见 的 一 样 )。 


此 模式 下 , 在 Sun 的 java.util.regex 之 类 支持 Unicode 的 系统 中 ， 行 销 点 能 够 匹配 任何 
— FATAL (7109), Ruby 的 行销 点 在 正常 情况 下 能 够 匹配 字符 串 中 的 换行 符 ，Python 
的 2 类 似 八 z， 而 不 是 普通 的 "Si。 


L 
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长 期 以 来 ， 这 种 模式 被 称 为 “多 行 模式 (multiline mode)”"。 尽 管 它 与 “单行 模式 ”没有 什 
么 关系 , 但 看 名 字 总 容易 觉得 二 者 有 关联 。 后 者 修改 的 是 点 号 的 匹配 规则 , 前 者 修改 的 是 “， 
和 5S 的 匹配 规则 。 另 一 方面 ， 它 们 从 不 同 的 思路 处 理 换行 符 。 第 一 个 修改 了 点 号 处 理 换行 
符 的 方式 ， 从 “需要 特殊 处 理 ” 变 为 “不 需要 特殊 处 理 ”， 第 二 个 的 做 法 则 相反 ,改变 了 ^ 
和 Si 匹配 换 行 符 的 方式 ， 从 “不 需要 特殊 处 理 ” 变 为 “需要 特殊 处 理 ”( 注 10)。 


文字 文本 模式 


“文字 文本 (literal text) ”模式 几乎 不 能 识别 任何 正则 表达 式 元 字符 。 例 如 ， 文 字 文 本 模式 
下 fa-z] 刀 1 匹配 字符 串 “[a-z]j*"。 完 整 的 文字 搜索 (literal search) 等 于 简单 的 字符 串 搜 
索 ( ”搜索 这 个 字符 串 "， 而 不 是 “搜索 这 个 正则 表达 式 ")， 支 持 正则 表达 式 的 程序 通常 也 
提供 了 普通 的 字符 串 搜索 功能 。 正 则 表达 式 的 文字 文本 模式 之 所 以 更 有 趣 ， 是 因为 它 可 以 
只 作用 于 正则 表达 式 的 一 部 分 ， 举 例 来 说 ，PCRE (因此 也 包括 PHP) 的 正则 表达 式 和 Perl 
的 正则 表达 式 文本 提供 了 特殊 的 序列 \Q…\E， 其 中 内 容 的 元 字符 全 部 被 忽略 (当然 ， 不 包 
括 \E)。 


常用 的 元 字符 和 特性 


Common Metacharacters and Features 


本 章 的 其 他 部 分 一 一 剩 下 大 约 30 页 的 内 容 简 要 介绍 下 一 页 列 出 的 常见 正则 表达 式 元 字符 和 
概念 。 这 里 的 介绍 并 不 是 全 面 彻底 的 ， 不 过 也 没有 任何 一 种 正则 工具 涉及 其 中 的 所 有 内 容 。 


从 某 种 意义 上 说 ， 这 一 节 只 是 前 两 章 内 容 的 总 结 ， 但 同时 也 是 为 本 章 介绍 更 全 面 更 深刻 的 
知识 做 准备 。 读 者 第 一 次 接触 时 ， 只 需 赂 读本 章 就 可 以 继续 阅读 下 面 各 章 ， 以 后 在 需要 的 
时 候 可 以 随时 回 过 头 来 查阅 细节 。 


有 的 工具 添加 了 大 量 的 新 功能 ， 也 可 能 毫 无 根据 地 改变 某 些 通用 表示 法 ， 以 满足 它们 的 特 
殊 要 求 。 尽 管 我 有 时 会 提 到 这 些 特殊 的 工具 ， 但 不 会 花 太 多 的 笔 黑 在 工具 的 细节 问题 上 。 
相反 ， 在 这 一 节 我 只 希望 介绍 常见 的 元 字符 及 其 作用 ， 以 及 与 此 相关 的 一 些 问题 。 我 希望 
读者 能 够 参考 自己 擅长 的 工具 提供 的 使 用 手册 。 


注 10: 正常 情况 下 ，Tcl 的 点 号 能 够 匹配 所 有 字符 ， 所 以 从 这 个 意义 上 说 它 比 其 他 任何 语言 部 要 
直接 易 懂 。 在 Tcl 的 正则 表达 式 中 ,换行 桂 并 不 需要 特殊 处 理 (对 点 号 和 行 锚 点 来 说 都 是 
如 此 )， 但 是 如 果 明 确 指 定 了 匹配 模式 ， 情 况 就 不 一 样 了 。 不 过 ， 因 为 其 他 系统 通常 以 其 
他 方式 来 做 到 这 一 点 ， 那 些 习 怪 其 他 方式 的 用 户 可 能 会 感到 速 惑 。 
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本 节 介 绍 的 结构 


字符 表示 法 

了 115 字符 缩 略 表示 法 : \na、\t、\a、\b、\e、\E、\F、\v、… 
F116 八进制 转 义 : \num 

F117 十 六 进 制 /Unicode $X: \xnum, \x{num}, \unum, \Unum, ~ 
W117 控制 字符 : \cchar 


字符 组 及 相关 结构 

7118 普通 字符 组 : [a-z] 和 [^a-z] 

T119 几乎 能 匹配 任何 字符 的 元 字符 : 点 号 

7120 BFA: \c 

#120 Unicode 组 合 字符 序列 ，\x 

7120 ”字符 组 缩 略 表示 法 : \w、\da、\e、\W、\D、\S 
7121 Unicode 属性 、 区 块 和 分 类 : \ptProp}、\P{Prop} 
r125 FRAZA: [[a-z]j&&[^aeiou]] 

7127 POSIX “FHR” FWiRS RARE: [[:alpha:]] 
7128 POSIX “collating 序列 ” 方 括 号 表示 法 : [[.epan-11.1]] 
7128 ”POSIX“ 字 符 等 价 类 ” 方 括号 表示 法 : [ [=n=] ] 
#128 Emacs 语法 类 


HARRE “PEKERE” 

T129 行 /字符 串 起 点 :“、\A 

129 行 /字符 串 终 点 : $、\Z2、\z 

T130 本 次 匹配 的 开始 位 置 (或 者 上 次 匹配 的 结束 位 置 ): \G 
7133 RQR: \b、\B、\<、\>,…. 

7133 ”顺序 环视 (?=…)、(?1…)， 逆序 环视 (?<=…)、(?<1…) 


注释 和 模式 修饰 词 

=135 ”模式 修饰 词 ，(?modifier) ， 例 如 (?1) 或 (?-1) 
T135 ”模式 作用 范围 ，(?modifier:…) ,例如 (?1:…) 
r136 ”注释 (?#:…) 和 Be 

136 ”文字 文本 范围 ，\Q…\ 


分 组 、 捕 获 、 条 件 判 断 和 控制 

7137) ”捕获 /分 组 括号 : (…)、\LE、\2，… 

r137 RAFTAAR: (?:…) 

7138 命名 捕获 : (?<Name>…) 

r139 WERA: (?>…) 

#139 多 选 结构 : | oso | oe 

F140 RFH: (?if then|else) 

F141 ”匹配 优先 量词 : *, +, 2, {num,num} 
F141 ”忽略 优先 量词 : *?、+?、??、{num,num}? 
7142 占有 优先 量词 : *+、++、?+、{num,num}+ 
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字符 表示 法 


Character Representations 
这 一 组 元 字符 能 够 以 清晰 美观 的 方式 匹配 其 他 方式 中 很 难 描述 的 某 些 字符 。 


字符 缩 略 表示 法 


许多 工具 软件 提供 了 表示 某 些 控制 字符 的 元 字符 ， 其 中 有 一 些 在 所 有 机 器 上 都 是 不 变 的 ， 
但 也 有 些 是 很 难 输入 或 观察 的 : 


\a 警报 (例如 ， 在 “打印 ”时 扬声器 发 声 )。 通 常 对 应 ASCH 中 的 <BEL> 字 符 ， 八 进 
制 编码 007, 


\b 退 格 通常 对 应 ASCI 中 的 <Bs> 字 符 , 八进制 编码 010。( 在 许多 流派 中 , b 只 有 
在 字符 组 内 部 才 表 示 这 样 的 意义 ， 否 则 代表 单词 分 界 符 了 了 133)。 


\e Escape 字符 通常 对 应 ASCII 中 的 <Esc> 字 符 ， 八 进 制 编码 033。 
\£f HRR 通常 对 应 ASCII 中 的 <FF> 字 符 ， 八 进 制 编码 014。 


\n 换行 符 出 现在 几乎 所 有 平台 (包括 Unix 和 DOS/Windows) 上 ， 通 常 对 应 ASCII 
的 <LF> 字 符 ， 八 进 制 编码 012。 在 MacOS 中 通常 对 应 ASCII 的 <cR> 字 符 ， 十 进 
制 编 码 015。 在 Java 或 任意 一 种 .NET 语言 中 ， 不 论 采 用 什么 平台 ， 都 对 应 
ASCII<LF> 字 符 。 

\r AF 通常 对 应 ASCII 的 <cR> 字 符 。 在 MacOS 中 ， 对 应 到 ASCI 的 <LF> 字 符 。 在 
Java 或 任意 一 种 .NET 语言 中 ， 不 论 采 用 什么 平台 ， 都 对 应 到 ASCII 的 <cR> 字 符 。 


\t KEHEE 对 应 ASCII 的 <HT> 字 符 ， 八 进 制 编码 011。 
\v SERRA 对 应 ASCI 的 <vT> 字 符 ， 八 进 制 编码 013, 


R 3-6 列 出 了 几 种 常用 的 工具 及 它们 提供 的 某 些 字符 缩 略 表示 法 。 之 前 已 经 说 过 , 某 些 语言 
在 支持 字符 串 文 字 时 已 经 提供 了 同样 的 字符 缩 略 表示 法 。 请 不 要 忘记 那 一 节 (一 101)， 
为 它 涉及 某 些 相关 的 陷阱 。 


会 根据 机 器 变化 的 字符 ? 


从 该 表 可 以 看 出 ， 在 许多 工具 中 ，\n 和 \r 的 意义 是 随 操作 系统 的 变化 而 变化 的 ( 注 11)， 
所 以 在 使 用 时 应 格外 小 心 。 如果 你 需要 在 程序 可 能 运行 的 所 有 平台 上 都 能 通用 的 “换行 符 ”， 
请 使 用 \n。 如 果 需 要 一 个 对 应 特殊 值 的 字符 ， 例 如 HTTP 协议 定义 的 分 隔 符 ， 请 使 用 \012 


注 11: 如 果 工 具 软 件 本 身 是 用 C 或 者 C++ 写 的 ， 将 其 中 的 正则 表达 式 反 针线 转 义 转换 为 C 的 反 
针线 转 义 ， 结 果 取 决 于 编译 器 。 在 现实 中 ， 在 特定 平台 的 各 种 编译 器 对 换行 竺 的 支持 是 
有 统一 标准 的 ， 所 以 我 们 可 以 认为 这 个 问题 只 与 操作 系统 相关 。 不 过 ， 因 为 只 有 \r 和 \n 
的 意义 会 根据 操作 系统 的 变化 〈 在 一 定 程度 上 ， 也 与 时 间 有 关 ) ， 可 以 认为 其 他 的 字 侍 在 
所 有 系统 上 都 是 统一 的 。 


ili 
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表 3-6: 几 款 工具 软件 及 它们 提供 的 元 字符 简写 法 





程序 字符 简写 

Python A lv g 4 /vv ¢ /v/v v 
Tel Iy vv ov £ Sf ~f x 
Perl A e a, 4 ev E d 

Java ds dV / Ja Va Va da AV 
GNU awk a =. ee ee Sa y g 
GNU sed / 

GNUEmacs |v If, 4 YY YY YY A ht ts 
NET Z Me tO Se See y ee: 
PHP (preg ##t)|¥ |v。 v  v 4 JA 4 
ws | 

GNU grep/egrep 

flex | I g © A a 
Ruby vo Vd EO S F F d 


Jih; Vc 只 在 字符 组 内 部 支持 

ws 支持 (字符 囊 文字 也 支持 ) 

Vx 支持 (但 在 字符 事 文字 中 ， 同 样 的 序列 有 不 同 的 意义 ) 

Vx 不 支持 (但 在 字符 事 文 字 中 ， 同 样 的 序列 有 不 同 的 意义 ) 

df, 不 支持 (但 字符 事 文 字 支 持 ) 

本 表格 假设 在 每 种 程序 中 使 用 的 都 是 最 适合 正则 表达 式 的 字符 事 类 型 
版 本 信息 请 参考 第 91 页 


之 类 标准 规定 的 字符 (\012 是 ASCII 中 的 换行 符 的 八进制 编码 )。 如 果 你 希望 匹配 DOS 中 
的 行 终结 字符 ， 请 使 用 \015\012,。 如 果 希 望 同 时 匹配 DOS 或 Unix 的 换行 字符 ， 请 使 用 
\015?\012, (它们 通常 是 匹配 行 尾 的 字符 ， 如 果 希 望 匹 配 行 的 开头 位 置 或 结尾 位 置 ， 请 使 
FAST HAT 129), 


八进制 转 义 \num 


支持 八进制 (以 8 为 基数 ) 转 义 的 实现 方式 通常 容许 以 2 到 3 位 数字 表示 该 值 所 代表 的 字 
节 或 字符 。 例 如 , \015\012 表 示 ASCII 的 CR/LF 序列 。 八 进 制 转 义 可 以 很 方便 地 在 正则 
表达 式 中 插入 平时 难以 输入 的 字符 。 例 如 ， 在 Perl 中 ， 我 们 可 以 使 用 八 e, 作为 ASCI 的 转 
义 字 符 ， 但 是 在 awk 中 不 行 。 
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因为 awk 支持 八进制 转 义 ， 我 们 可 以 直接 使 用 ASCII 代码 来 表示 escape 字符 : '\0331, 
下 一 页 的 表 3-7 列 出 了 部 分 工具 支持 的 八进制 转 义 。 


有 些 实现 方式 很 特殊 ， 在 其 中 疏 0 能够 匹配 字 节 NUL。 有 的 支持 一 位 数字 的 八进制 转 义 ， 
不 过 如 果 同 时 支持 "1 之 类 的 反 向 引用 ， 就 不 会 提供 这 种 功能 。 如 果 两 者 发 生 冲 突 ， 则 反 
向 引用 一 般 要 优先 于 八进制 转 义 。 有 的 容许 出 现 4 位 数字 的 八进制 转 义 ， 不 过 通常 会 要 求 
任何 八进制 转 义 都 必须 以 0 开头 (例如 java.util.regex), 


你 可 能 会 想 ， 如 果 遇 到 \565 之 类 超出 范围 的 转 义 数值 (8 位 的 八进制 数值 范围 从 \000 到 
\377) 会 发 生 什 么 。 大 约 一 半 的 实现 方式 将 其 视 为 多 余 一 个 字 节 的 值 (如 果 支 持 Unicode, 
则 可 能 是 Unicode 字符 )， 而 其 他 实现 方式 会 将 其 截断 为 一 个 字 节 。 一 般 来 说 ， 最 好 的 办 法 
还 是 不 要 使 用 超过 \377 的 八进制 转 义 。 


十 六 进 制 及 Unicode $X. \xnum, \x{num}, \unum, \onum 


除了 八进制 转 义 之 外 ， 许 多 工具 软件 也 支持 十 六 进 制 转 义 (以 16 为 基数 )， 以 \x、\u 或 者 
是 \U FFA, 如果 支 持 \x, 则 \x0D\x0A 匹配 CR/LF 序列 。 表 3-7 列 出 了 部 分 工具 软件 支持 
的 十 六 进 制 转 义 。 


除了 知道 采用 的 是 哪 种 转 义 之 外 ， 你 可 能 还 希望 知道 各 种 转 义 能 识别 多 少 位 的 转 义 值 ， 以 
及 是 否 能 够 (或 者 必须 ) 在 数字 两 端 使 用 花 括 号 。 对 此 ， 表 3-7 同样 作 了 说 明 。 


控制 字符 : \cchar 


许多 流派 中 可 以 用 \cchan 来 匹配 编码 值 小 于 32 的 控制 字符 (有 些 能 支持 更 大 的 值 )。 例如 ， 
A\cH 匹 配 一 个 Control-H 字符 , 也 就 是 ASCI 中 的 退 格 符 , 而 \ co 匹配 ASCI 的 换行 符 ( 通 
常 使 用 \m， 不 过 有 时 也 使 用 \ri， 这 取决 于 具体 的 平台 一 115) 。 


支持 此 结构 的 系统 在 细节 上 有 所 不 同 。 与 这 个 例子 一 样 ， 通 常 使 用 大 写 英文 字母 是 不 会 有 
问题 的 。 在 大 多 数 实现 方式 中 ， 你 也 可 以 使 用 小 写字 母 ， 不 过 也 有 的 软件 不 支持 它们 ， 例 
如 Sun 的 Java regex Package。 流 派 不 同 ， 对 字母 和 数字 之 外 的 字符 的 处 理 是 非常 不 同 的 ， 
所 以 我 推荐 在 使 用 \c 时 只 使 用 大 写字 母 。 


相关 提示 : GNU Emacs 支持 此 功能 , 但 它 使 用 的 元 序列 非常 奇特 ?\“char (例如 : ?\^H 匹 
Bc ASCII 编码 中 的 退 格 字符 )。 


L 
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表 3-7: 部 分 工具 软件 及 它们 的 正则 表达 式 支 持 的 八进制 和 十 六 进 制 转 义 


= Ps COR 

Tel PY | N77, \377 | \xs\UFFFF; \UFFFFFFFF 
Perl \0, \77, \377 \xF; \xFF; \x{-") 
Pe S a CAC T 

> a Y Aenea ES 

ae pe | 
| 


A EA 

E Teaser 

Ruby NAF, WFP 
\0 一 一 \01 匹配 字 节 NUL， 而 其 他 一 位 数字 的 八进制 转 义 是 不 支持 的 。 
\7,\77 一 一 一 位 和 两 位 八进制 转 义 都 支持 

\07 一 一 支持 开头 为 0 的 两 位 八进制 转 义 

\077 一 一 支持 开头 为 0 的 3 位 八进制 转 义 

\377 一 一 支持 不 超过 \377 的 3 位 八进制 转 义 

\0377 一 一 支持 不 超过 \0377 的 4 位 八进制 转 义 

\777 一 一 支持 不 超过 \777 的 3 位 八进制 转 义 

\xX… 一 一 容许 出 现任 意 多 位 数字 

\x{…) 一 一 \x{…} 容 许 出 现任 意 多 位 数字 

\XF、\XFF 一 一 以 \x 开头 ， 容 许 出 现 一 到 两 位 十 六 进 制 转 义 

\UFFFF 一 一 以 \u 开头 的 4 位 十 六 进 制 转 义 

\UFFFF 一 一 以 \U 开头 的 4 位 十 六 进 制 转 义 

\UFFFFFFFF 一 一 以 \U 开头 的 8 位 十 六 进 制 数字 (参考 第 91 页 的 版 本 信息 ) 


字符 组 及 相关 结构 


Character Classes and Class-Like Constructs 


现在 许多 流派 中 ， 都 有 多 种 方法 在 正则 表达 式 的 某 个 位 置 指定 一 组 字符 ， 不 过 最 通行 的 方 
法 还 是 使 用 普通 字符 组 。 


普通 字符 组 : [a-z] 和 [^a-z] 


我 们 已 经 介绍 过 字符 组 的 基本 概念 ， 不 过 我 还 是 要 强调 ， 元 字符 的 规定 在 字符 组 内 外 是 有 
差别 的 。 例 如 ， 在 字符 组 内 部 ”永远 都 不 是 元 字符 ， 而 -通常 都 是 元 字符 。 有 些 元 序列 ， 
例如 \b， 在 字符 组 内 外 的 意义 是 不 一 样 的 (一 116) 。 










i 


S 







PHP (preg #44) 
MySQL 





GNU egrep 
GEU grep 
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在 大 多 数 系统 中 ， 字 符 组 内 部 的 顺序 环视 是 无 关 紧 要 的 ， 而 且 使 用 范围 表示 法 而 不 是 列 出 
范围 内 的 所 有 字符 并 不 会 影响 执行 速度 (例如 ，[0-9] 与 [908176354] 是 一 样 的 )。 相 反 ， 
某 些 实现 方式 不 能 完全 优化 字符 组 (比如 Sun 提供 的 Java regex package) ， 所 以 最 好 是 使 用 
范围 表示 法 ， 因 为 如 果 有 差别 ， 这 种 表示 法 的 速度 会 快 一 些 。 


字符 组 通常 表示 肯定 断言 (positive assertion)。 也 就 是 说 ， 它 们 必须 匹配 一 个 字符 。 排 除 型 
字符 组 仍然 需要 匹配 一 个 字符 ， 只 是 它 没有 在 字符 组 中 列 出 而 已 。 把 排除 型 字符 组 理解 为 
“匹配 未 列 出 字符 的 字符 组 ”或 许 更 容易 一 些 (请 务必 阅读 下 一 节 中 关于 点 号 和 排除 型 字 
符 组 的 警告 )。'[^LMNOP] 通常 等 价 于 '[\x00-kQ-\xFF];， 即 使 在 规定 严格 的 8 位 系统 中 ， 
这 仍然 成 立 , 但 是 在 Unicode 之 类 字符 的 值 可 能 大 于 255 (\xFF) 的 系统 中 ， 排 除 型 字符 组 
'{*LMNOP] J 可 能 包括 成 千 上 万 个 字符 一 一 只 是 不 包含 L、M、N、0 和 P。 


请 务必 理解 使 用 范围 表示 法 的 基本 字符 组 。 例 如 ， 用 '[a-z] 匹配 字母 就 很 可 能 存在 遗漏 ， 
而 且 在 任何 情况 下 显然 都 不 是 “所 有 字母 ”。 而 [a-zA-2z] 则 能 匹配 所 有 字母 , 至 少 对 于 ASCH 
编码 来 说 是 这 样 的 (请 参考 “Unicode 属性 ”中 的 \p{DL} 亚 121)。 当 然 ， 在 处 理 二 进 制 数据 
时 ， 字 符 组 中 的 “\x80-\xFF” 范 围 表 示 法 完全 适用 。 


几乎 能 匹配 任何 字符 的 元 字符 : 点 号 


在 某 些 工具 软件 中 ， 点 号 用 来 缩 略 表示 可 以 匹配 任何 字符 的 字符 组 ， 而 在 其 他 工具 中 ,点 
号 能 匹配 除了 换行 符 之 外 的 任何 字符 。 这 差别 很 细微 ， 但 如 果 所 用 的 工具 能 够 处 理 包 含 多 
个 逻辑 行 的 目标 文本 《或 者 是 文本 编辑 器 中 的 多 个 逻辑 行 的 文本 )， 它 就 非常 重要 。 关 于 点 
号 ， 需要 注意 的 有 : 


。 在 Sun 的 Java regex package 之 类 的 支持 Unicode 的 系统 中 ， 点 号 不 能 匹配 Unicode 的 
{TRE (7109), 


。 ERRA (7111) 会 改变 点 号 的 匹配 规则 。 
° POSIX 规定 ， 点 号 不 能 匹配 NUL ( 值 为 0 的 字符 )， 尽 管 大 多 数 脚本 语言 容许 文本 中 
出 现 NULL (而 且 可 以 用 点 号 来 匹配 ) 。 


点 号 ， 还 是 排除 型 字符 组 


如 果 所 使 用 的 工具 能 够 在 多 行文 本 中 进行 搜索 ， 请 务必 注意 点 号 ， 它 在 通常 情况 下 不 能 匹 
配 换行 符 ， 而 排除 型 字符 组 [^"] 通常 都 可 以 。 如 果 把 “… .* "替换 为 “[^"]*"， 可 能 会 带 
来 意 想不到 的 效果 。 点 号 的 匹配 规定 一 般 可 以 通过 变换 匹配 模式 来 更 改 一 一 请 参考 第 111 
页 的 “点 号 通 配 模式 ”。 
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单个 字 节 


Perl 和 PCRE (也 包括 PHP) 支持 用 \c 匹配 单个 字 节 ， 即 使 该 字 节 位 于 某 个 多 字 节 编码 的 
字符 之 中 (相反 ， 其 他 功能 都 是 基于 字符 的 )。 这 个 功能 很 危险 ， 如 果 运 用 不 当 ， 可 能 会 导 
致 内 部 错误 ， 所 以 只 有 在 清楚 自己 所 作 所 为 的 情况 下 ， 才 能 使 用 它 。 我 找 不 到 恰当 运用 的 
例子 ， 所 以 下 文 不 再 提 及 。 


Unicode 组 合 字 符 序 列 : \X 


Perl 和 PHP 支持 用 \x 缩 略 表示 八 P(M) \p{M} *， 它 可 以 视 为 点 号 的 扩展 。 它 匹配 一 个 基本 
字符 ( 除 \p{M) 之 外 的 任何 字符 )， 之 后 可 能 有 任意 数目 的 组 合 字符 ( 除 \p(M} 之 外 )。 


之 前 已 经 介绍 过 (7107), Unicode 体系 包括 基本 字符 和 组 合 字符 ,二 者 可 以 合成 “看 起 来 ” 
的 单个 字符 ， 例 如 a ('a” 的 编码 是 u+0061, MAAS “” 的 编码 是 U+0300)。 有 的 字符 
可 能 包含 不 止 一 个 的 组 合 字 符 。 例 如 ,““” 就 包括 “c" ， 然 后 是 变 音 符 “." ， 最 后 是 短 音 
符 ““”(Unicode 编码 分 别 是 U+0063, U+0327 和 U+0306)。 


如 果 和 希望 匹配 “francais” 或 者 “francais”， 仅 仅 使 用 ‘fran.aiss MH ‘fran(cClais: MAB 
保险 ， 因 为 此 方法 假设 “c” 用 单个 Unicode 代码 点 U+00c7 表示 ， 而 不 是 “c” 加 上 变 音 符 

(U+0063 加 上 U+0327)。 如 果 需 要 专门 处 理 ， 可 以 使 用 fran(c,?1c)aisi， 不 过 在 这 里 ， 
用 fran\Xais! 取 代 'fran.ais! 是 个 好 办 法 。 


除了 能 够 匹配 结尾 的 组 合 字符 之 外 ，\X 与 点 号 还 有 两 个 差别 。 其 一 是 ，\X 始终 能 匹配 换行 
符 和 其 他 Unicode 行 终结 符 (一 109)， 而 点 号 只 有 在 点 号 通 配 模式 (7111), 或 者 工具 软件 
提供 的 其 他 匹配 模式 下 才 可 以 。 另 一 点 是 ， 点 号 通 配 模式 下 的 点 号 无 论 什么 情况 下 都 能 匹 
配 任何 字符 ， 而 、\X 不 能 匹配 以 组 合 字符 开头 的 字符 。 


字符 组 简 记 法 : \w、\d、\e、\W、\D、\S 


通常 支持 的 简 记 法 有 : 


\d 数字 等 价 于 ' [0-9],， 如 果 工 具 软件 支持 Unicode， 能 匹配 所 有 的 Unicode 数字 。 
\D” 非 数字 字符 BHF 【^\dji。 


w ”单词 中 的 字符 一 般 等 价 于 '[a-zA-z0-9_]j。 菜 些 工具 软件 中 wj 不 能 匹配 下 画 线 ， 
而 另 一 些 工具 软件 的 "wj 则 能 支持 当前 locale (787) 中 的 所 有 数字 和 字符 。 如 果 
支持 Unicode, \w 通常 能 表示 所 有 数字 和 字符 , 而 在 java.util.regex 和 PCRE 

(也 包括 PHP) 中 ,，\wj 严 格 等 价 于 '[a-zA-20-9_],。 
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w ， 非 单词 字符 StF i+w). 


\s 空白 字符 在 支持 ASCH 的 系统 中 , 它 通 常 等 价 于 '[ 改 ft\n\r\t\v]ie 在 支持 Unicode 
的 系统 中 ， 有 时 包含 Unicode 的 “换行 ”控制 字符 U+0085， 有 了 时 包含 “空白 
(whitespace) ”属性 \p{2} (参见 下 一 节 的 介绍 )。 


\s” 非 空白 字符 $F Asle 


87 页 已 经 介绍 过 ，POSIX 的 locale 设 定 会 影响 这 些 简 记 符号 的 含义 (尤其 是 \w) 。 支 持 
Unicode 的 程序 中 ，\w 通 常 能 匹配 更 多 的 字符 ， 例 如 \p{L} (下 一 节 介 绍 ) 和 下 画 线 。 


Unicode 属性 ， 字 母 表 和 区 块 : \p{Prop}、\P{Prop} 


表面 上 看 ，Unicode 只 是 一 套 字 符 映 射 规则 (7106), CK Unicode 标准 远 远 不 止 这 些 。 它 
还 定义 了 每 个 字符 的 性 质 (qualities) ， 例 如 “这 个 字符 是 小 写字 母 ",“ 这 个 字符 是 从 右 往 左 
看 的 ，“ 这 个 字符 是 标记 字符 (mark) ， 它 必须 与 其 他 字符 一 同 使 用 ”等 等 。 


不 同 的 正则 表达 式 系统 对 这 些 属性 的 支持 也 不 相同 ,但 是 许多 支持 Unicode 的 程序 能 够 通过 
Ap{gualipjj 和 八 P{gualip])i 支 持 其 中 的 一 部 分 。 比 如 pt) 就 是 个 简单 的 例子 ,这 里 “5， 
的 意思 是 “字母 (letter)”( 相 对 于 数字 number、 标 点 punctuation 和 口音 accent, 2%), ‘L’ 
是 一 种 普通 属性 (general property , 也 称 为 分 类 category ) 。 我 们 马上 会 了 解 到 ,可 以 用 \p{…)， 
和 "\P{…) ,来 测试 其 他 “属性 ”， 当 然 支持 最 广泛 的 还 是 常见 的 属性 。 


常见 的 属性 请 见 表 3-8。 每 个 字符 (实际 上 是 代码 点 , 包括 那些 目前 没有 对 应 字符 的 代码 点 ) 
都 可 以 用 一 个 普通 属性 匹配 。 普 通 属性 的 名 字 是 单个 字符 (例如 “L” 表 示 字 母 letter，'s' 
表示 符号 symbol， 等 等 )， 但 是 某 些 系统 中 可 以 用 多 个 字母 表述 属性 (fn ‘Letter’ A 
Symbol )， 比 如 Perl 就 支持 这 样 。 


在 某 些 系 统 中 ， 单 字母 属性 名 可 能 不 需要 花 括 号 (例如 ， 用 \pL 而 不 是 \p{L) )。 有 的 系统 
可 能 要 求 (或 者 是 容许 ) {EA ‘In’ ae ‘Is’ 前 级 (例如 \p{IsL}) )。 讲解 扩展 属性 (additional 
qualities) 了 时， 我 们 会 见 到 要 求 使 用 Is/In 前 缀 的 例子 (E 12)。 


按照 表 3-9， 每 个 用 单字 符 表示 的 普通 属性 可 以 进一步 分 为 多 个 双 字 母 表 示 的 子 属性 
(sub-property) ， 例 如 “字母 《letter)” 又 可 以 分 为 “小 写字 母 "、“ 大 写字 母 "、“ 标 题 首 字 


注 12: 我 们 会 看 到 ( 见 第 125 页 的 表格 ) ， 所 有 的 IS/In 前 缓 都 有 点 多 余 。 老 版 本 的 Unicode 
推荐 一 种 做 法 ， 而 更 早 的 实现 推荐 另 一 种 。 在 Perl 5.8 的 开发 过 程 中 ， 我 与 负责 简化 Perl 
的 小 组 一 起 工作 。 目 前 Perl 对 此 的 规定 是 : 如 非 指定 要 使 用 某 个 Unicode 区 块 ， 就 不 应 
HRA ‘Is’ AŽ ‘In’, SRMMLARA ‘In’, 
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表 3-8: 基本 的 Unicode 属性 分 类 





\p{L} \p{Letter}) 一 一 字母 

\p{M} \p {Mark} 不 能 单独 出 现 , 而 必须 与 其 他 基本 字符 一 起 出 现 (重音 符号 、 
CMH, FF) 的 字符 

\p{Z} \p{Separator) 一 一 用 于 表示 分 隔 , 但 本 身 不 可 见 的 字符 (各 种 空白 字符 ) 

\p{8} \p {Symbol } 一 一 各 种 图 形 符号 (Dingdats) 和 字母 符号 

\p im} \p{Number) 一 一 任何 数字 字符 

\p{P} \p{Punctuation) 一 一 标点 字符 

\p{C} \p{other} 一 一 匹配 其 他 任何 字符 (很 少 用 于 正常 字符 ) 


E} (titlecase letter)”, “修饰 符 字母 "和 “其 他 字母 "。 每 个 代码 点 能 且 只 能 属于 一 种 子 属性 。 


要 补充 的 是 ， 某 些 实现 方式 支持 特殊 的 复合 子 属性 ， 例 如 用 \p{Lg} 表 示 “ 分 大 小 写 的 
(cased)” 字 母 ， 也 就 是 说 '[\p{Lu}\p{L1}\p{Lt}]1。 


表 3-9 还 给 出 了 某 些 实现 方式 支持 的 属性 名 的 全 称 (例如 ，“Lowercase_Letter”， 而 不 是 
“L1”)。 按 照 Unicode 的 标准 ， 各 种 形式 都 应 该 能 够 接受 (例如 “LowercaseLetter 
“LOWERCASE_ LETTER’, ‘Lowercase*Letter’. ‘lowercase-letter’), Wit, ATIR 


持 一 致 ， 我 推荐 使 用 表 3-9 中 的 形式 ) 。 


字母 表 (Scripts) 有 的 系统 能 够 按照 字母 表 (书写 系统 writing system) WAFL '\p{---}, 
来 匹配 。 例 如 ， 用 \p{Hebrew} 匹配 希 伯 来 文 独 有 的 字符 (但 不 包含 其 他 书写 系统 中 常见 的 
字符 ， 例 如 空格 和 标点 )。 


某 些 字母 表 是 基于 语言 的 (例如 印度 古 哈 拉 地 语 、 泰 国语 、 切 罗 基 语 ， 等 等 )。 有 的 覆盖 了 
多 种 语言 (例如 拉丁 文 、 西 里 尔 文 )， 还 有 些 语言 包含 多 种 字母 表 ， 例 如 日 语 的 字符 就 来 自 
平 假名 、 片 假名 、 汉 语 和 拉丁 语 。 请 读者 参考 自己 系统 的 文档 获取 完整 的 信息 。 


字母 表 不 会 包含 特定 的 书写 系统 中 的 所 有 字符 ， 而 只 包含 独 属 于 (或 者 几乎 独 属 于 ) EE 
写 系统 中 的 字符 。 常 见 的 字符 ， 例 如 空格 和 标点 不 属于 任何 字母 表 ， 而 是 属于 通用 的 
IsCommon 伪 字 母 表 (pseudo-script) , FA'\p{IsCommon } J 匹配 ,还 有 一 个 伪 字 母 表 Inherited, 
它 包括 从 其 所 属 的 字母 表 中 基本 字符 继承 而 来 的 组 合 字符 。 
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表 3-9: 本 的 Unicode 子 属性 














\p{Ll} | \p{ pr 小 写字 母 。 

\p{Lu} | \p{Uppercase_Letter}——-k 5 F#, 

\p{Lt} | \p{Titlecase_Letter} 一 一 出 现在 单词 开头 的 字母 (例如 ,字符 DZ 是 小 写字 母 
dz 和 大 写字 母 DZ 的 首 字母 形式 )。 

\p{L&} | \p{L1}、\p{Lu}、\p{Lt} 并 集 的 简 记 法 。 

\p{Lm} | \p{Modifier_Letter}) 一 一 少数 形似 字母 的 ， 有 特殊 用 途 的 字符 。 

\p{Lo} | \p{Other_Letter) 一 一 没有 大 小 写 形式 ,也 不 属于 修饰 符 的 字母 , 包括 希 伯 来 语 、 
阿拉 伯 语 、 和 孟加拉 语 、 泰 国语 、 日 语 中 的 字母 。 

\p{Mn} | \p{Non_ Spacing Mark} 用 于 修饰 其 他 字符 的 “字符 (Characters)”， 例 如 重 
音符 号 、 变 音符 号 、 某 些 “ 元 音 记号 ”和 语调 标记 。 

\p{Mc) | \p{Spacing_Combining Mark)} 一 一 会 占据 一 定 宽度 的 修饰 字符 (各 种 语言 中 的 
大 多 数 “元 音 记 号 ”， 这 些 语言 包括 孟加拉 语 、 印 度 古 哈 拉 地 语 、 泰 米尔 语 、 泰 卢 
Bie, tae, DRE, Hae Fi, Mae HH). 

\p{Me} | \p{Encoleing_Mark)} 一 一 可 以 转 住 其 他 字符 的 标记 ， 例 如 圆 图、 方 框 、 钻 石 型 等 。 

\p{Zs} | \p{Space_Separator}) 一 一 各 种 空白 字符 ,例如 空格 符 、 不 间断 空格 (non-break 
Space) ， 以 及 各 种 固定 宽度 的 空白 字符 。 

\p{Zl} | \p{Line_Separator}——LINE SEPARATOR 字符 (U+2028), 

\p{Zp)} | \p{Paragraph_Separator }——-PARAGRAPH SEPARATOR 字符 (U+2029), 

\p{Sm} | \p{Math_Symbol}——& FHF. +. +, ATTERRA. 

\p{Sc} | \p{Currency_Symbol}——& ##HF,. $, ¢. E …。 

\p{sk} | \p{Modifier_Symbol) 一 一 大 多 数 版 本 中 它 表 示 组 合 字 符 , 但 是 作为 功能 完整 的 
字符 ， 它 们 有 自己 的 意义 。 

\p{So} | \p{Other_Symbol}——4# Ph AS, BRAD, FLAT, UREFAHAH 
中 文字 符 ， 等 等 。 

\p{Nd} | \p{Decimal_ Digit_Number) 一 一 各 种 字母 表 中 从 0 到 9 的 数字 (不 包括 中 文 、 
日 文 和 韩文 ) 。 

\p{N1} | \p{Letter_Number}) 一 一 几乎 所 有 的 罗马 数字 ， 

\p{No} | \p{Other_Number) 一 一 作为 加 密 符 号 (superscripts) 和 记号 的 数字 ， 非 阿拉 伯 数 
字 的 数字 表示 字符 (不 包括 中 文 、 日 文 、 韩 文中 的 字符 )。 

\p{Pd} | \p{Dash_ Punctuation}) 一 一 各 种 格式 的 连 字 符 (hyphen) 和 短 划 线 (dash), 

\p{Ps) | \p{Open_ Punctuation) 一 一 (、 和 和 《等 字符 。 

\p{Pe} | \p{Close_Punctuation}——), “#e) FFA. 

\p{Pi) | \p{rmmitial_Punctuation}——«, “, <#F##, 

\p{Pf£) | \p{Final_Punctuation »、”、> 等 字符 。 

\p{Pc} ， 如 下 画 线 。 

\p{Po} | \p(other_ RS Ee rere aa p 

\p{Cc} | \p{control}——ASCII $- Latin-1 编码 中 的 控制 字符 Som LF, CR F). 

\p{Cf£} | \p{Formatj 一 一 用 于 表示 格式 的 不 可 见 字符 。 

\p{Co} | \p{Private_Use) 一 一 分 配 与 私人 用 途 的 代码 点 (例如 公司 的 logo), 

\p{Cn} | \p{Unassigned) 一 一 目前 尚未 分 配 字 符 的 代码 点 。 
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Kik (Block), KRW (但 是 比 不 上 ) 字母 表 ， 区 块 表示 Unicode 字符 映射 表 中 一 定 范围 
内 的 代码 点 。 例 如 ，Tibetan 区 块 表 是 从 U+0F00 到 U+OFFF 的 256 个 代码 点 。 其 中 的 字符 ， 
在 Perl 和 java.util.regex 中 可 以 用 \p{InTibetan} 来 匹配 ， 在 .NET 中 可 以 用 
\p{IsTibetan} 来 匹配 (细节 见 后 文 )。 


区 块 有 许多 种 ， 包 括 对 应 大 多 数 书写 系统 的 区 块 〈 和 希 伯 来 、 泰 米尔 、 基 本 拉丁 语 、 西 里 尔 
文 等 等 ) ， 以 及 特殊 的 字符 组 型 〈 货 币 、 稍 头 、 文 本 框 、 印 刷 符 号 等 ) 。 


Tibetan 是 一 个 典型 的 区 块 ， 因 为 其 中 的 所 有 字符 都 是 按照 西藏 文 定义 的 ， 此 区 块 之 外 不 
存在 专属 于 藏 语 的 字符 。 不 过 ， 区 块 仍然 不 如 字母 表 ， 原 因 如 下 : 


。 ”区 块 可 能 包含 未 赋值 的 代码 点 。 例 如 ，Tibetan 区 块 中 大 约 有 25% 的 代码 点 没有 分 配 
字符 。 


。 ”并 不 是 看 起 来 与 区 块 相关 的 所 有 字符 都 在 区 块 内 部 。 例 如 ， 在 currency 区 块 中 就 没 
有 通用 的 货币 符号 T, 也 没有 常见 的 $、¢、£、E 和 ¥ (幸好 , 这 时 候 我 们 可 以 用 currency 
属性 \p{sc} ) © 


。 ”区 块 通常 包含 不 相关 的 字符 。 例 如 ¥ (表示 “元 ”) 属于 Latin_1_supplement KK, 


。 属于 某 个 字母 表 的 字符 可 能 同时 包含 于 多 个 区 块 。 例 如 ， 希 腊 字 符 同时 出 现在 creek 
和 Greek_Extended KA, 


对 区 块 的 支持 比 对 字母 表 的 支持 更 普遍 。 不 过 这 两 者 很 容易 混 请 ， 因 为 在 命名 上 存在 许多 
HH (fån, Unicode 同时 提供 了 Tibetan 字母 表 和 Tibetan KK), 


此 外 ， 按 照 下 页 的 表 3-10 所 示 ， 这 些 命 名 本 身 也 设 有 统一 的 标准 。 在 Perl 和 java.util. 
regex A, Tibetan 区 块 表 示 为 \p{fIinTibetan}), 但 是 在 .NET 中 又 表示 为 \p{ITeTibetan} 
(更 粳 糕 的 是 ， 在 Perl 中 这 是 Tibetan 字母 罕 的 另 一 种 表示 法 )。 


其 他 属性 (Other properties/qualities) 上 面 介绍 的 知识 并 不 是 通用 的 。 表 3-10 详细 介绍 了 它 
们 的 适用 情况 。 


要 补充 的 是 ，Unicode 还 定义 了 许多 能 够 通过 "\p{…) ,结构 访 问 的 属性 , 其 中 包括 字符 的 书 
写 顺 序 环视 (从 左 至 右 还 是 从 右 至 左 ， 等 等 )、 与 字符 相关 的 元 音 ， 以 及 其 他 属性 。 有 些 实 
现 方 式 还 容许 用 户 根据 需要 临时 创建 属性 。 请 参考 具体 的 程序 提供 的 文档 了 解 细节 。 


i 
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表 3-10: 属性 /字母 表 / 区 块 的 支持 情况 


特 和 性 es R oe 
VY 基本 属性 ， 例如 \p{L} 


ec BA rated Perl op va {iNet CO ERE 
/ / / 
V 基 本 属性 缩 略 表 示 法 ,例如 \pL / / / 
基本 属性 缩 略 表示 法 ， 例 如 \p{IsL)} / A 
JERAHA, Pilto\p{Letter} |v 


复合 属性 ， 例 如 \p{L&] 本 
/ 字母 表 ， 例 如 \p{Greek)} "á / 
字母 表 全 名 ， 例 如 \p{IeGreek} 
VY 区 块 ， 例如 \p{Cyrillic) ripe / 
VY 区 块 全 名 ,例如 \p{InCyrillic)} / / 
区 块 全 名 ， 例 如 \p{Iscyrillic} 
排除 功能 ， 例 如 P{…) 
排除 功能 ， 例 如 \p{^…} 


J \p{Any)} ¥ F\p{all} 
/\p{Assigned} 等 于 \P{Cn} | 等 于 \P{Ccn} 
w\pfUnassigned} ¥F\picn} | 等 于 \p{Cn} | 等 于 \p{Ccn) 


SUT SEE SEES CETTE (请 参考 第 91 页 的 版 本 信息 ) 


ET ES PE 
多 Ses “wi a e 
4 Ar 


< 
toes 





简单 的 字符 组 减法 : [ [a-z] - [aeiou]] 


NET 提供 的 字符 组 “减法 ”容许 我 们 在 字符 组 中 进行 减法 运算 。 例 如 ，[ [a-z]- [aeiou])， 
匹配 的 字符 就 是 [a-z]) 能 够 匹配 字符 的 减 去 [aeiou]) 能 够 匹配 的 字符 ， 也 就 是 ASCII 编 
码 中 小 写 的 非 元 音字 母 。 


另 一 个 例子 是 [\p{P}-[\p{Psj\p{Pelj]],， 它 能 够 匹配 \p{P)} 中 除 '[\p{Ps}\p{Pe)] 之 外 
的 字符 ， 也 就 是 说 ， 它 能 匹配 除了 》 和 (之 类 成 对 的 符号 之 外 的 所 有 标点 符号 。 


完整 的 字符 组 集合 运算 : [[a-z] && [*aeiou]] 


Sun 的 Java regex package 中 的 字符 组 能 够 进行 完整 的 集合 运算 (并 、 减 、 交 )。 它 的 语法 有 
别 于 前 一 节 中 简单 的 字符 组 减法 (尤其 是 ,在 Java 中 匹配 小 写 非 元 音字 母 的 字符 组 [[a-z]&& 
[^aeiou]])。 在 详细 介绍 减法 之 前 ， 我 们 先 来 看 两 个 简单 的 集合 运算 : OR 和 and, 


OR 容许 用 户 以 字符 组 方式 在 字符 组 中 添加 字符 : [abcxyz] 也 可 以 表示 为 [[abc] [xyz]]、 
[abe [xyz]] 或 【[abc]xyz] 等 等 。OR 用 来 把 多 个 集合 合并 为 新 的 集合 。 从 概念 上 说 ， 它 
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有 点 像 多 种 语言 提供 的 “ 按 位 或 ”运算 符 :“! ”或 是 “or "。 在 字符 组 中 ，OR 只 不 过 是 一 
种 简 记 法 ， 尽 管 包括 排除 型 字符 组 在 某 些 情况 下 更 方便 。 


AND 对 两 个 集合 进行 概念 上 的 “与 ”运算 ， 只 保留 同时 属于 两 个 字符 组 的 字符 。 它 的 写法 是 
在 两 个 字符 组 中 添加 特殊 的 字符 组 元 字符 gg 。 例 如 [\p{InThai}&g\P{cn}] ， 它 通过 对 
\p{InThai} 和 \P{Cn} 进 行 交 运算 (只 保留 同时 属于 两 个 集合 的 字符 )， 匹 配 thai 区 块 中 所 
有 已 经 赋值 的 代码 点 。\P{…} 中 的 “P” 是 大 写 ， 匹 配 不 具备 此 属性 的 字符 ， 所 以 \P {cn} 
匹配 的 就 是 除 未 赋值 的 代码 点 之 外 的 代码 点 ， 也 就 是 已 经 赋值 的 代码 点 (要 是 Sun 能 够 识 
别 已 赋值 属性 (Assigned quality) ， 就 可 以 用 \p{assigned} 赫 换 \P{cn) ) 。 


KATERA OR 和 AND, 它们 的 含义 取决 于 用 户 的 看 法 。 例如 [fthis] [that]] 读 作 “[this] 
或 者 [that ] 匹配 的 字符 ”， 其 实 它 的 真正 意思 是 “[this] 和 [that] 能 够 匹配 的 所 有 字符 ”， 
这 只 是 对 同一 个 问题 的 两 种 看 法 。 


相 比 之 下 ,AND 要 清楚 一 些 : [\p{InThai}gg\P{cn}] 读 作 “ 只 匹配 在 \p{InThai} 和 \P{cn)} 
中 出 现 的 字符 ”， 尽 管 它 有 时 候 也 读 作 “匹配 属于 \p{InThai} 和 \P{cn} 的 交集 中 的 字符 。” 


看 法 的 不 同 可 能 会 造成 混乱 : 我 叫做 OR 和 aND 的 运算 ， 某 些 人 可 能 叫做 AND 和 


INTERSECTION, 


以 集合 运算 符 进 行 字符 组 和 的 减法 \P{cn} 可 以 写作 [^\p{cn}] ， 所 以 在 匹配 “Thai block 中 
已 经 赋值 的 字符 ”了 时，[\p{InThai}gg\P{Cn}] 也 可 以 写作 [\p{InThai}&gg[^\p{cn}]]。 
这 样 的 改变 并 没有 多 少 意义 ， 只 是 它 有 助 于 说 明 一 个 通用 的 模式 :“Thai block 中 已 赋值 字 
符 ” 比 “所 有 Thai block 中 的 字符 ， 减 去 未 赋值 的 字符 ”更 好 理解 ， 于 是 我 们 知道 
[\p{InThai)&&{*\p(Cn},]] #7 “\p(InThai}WMZ\picn}”, 








这 样 就 回 到 了 本 节 开 头 '{[[a-z]&&[^aeiou] ] 的 例子 ， 现在 我 们 知道 如 何 进行 字符 组 的 减 
法 了 。 其 模式 为 , [mis gg[^that] ] ,表示 “[this] 减 去 [that]”。 我 发 现 用 gg 和 [^…] 进行 双 重 
否定 很 难 记 忆 ， 所 以 记 住 模式 [… alae] ;就 够 了 。 


通过 环视 功能 模拟 字符 组 的 集合 运算 如 果 所 使 用 的 程序 不 支持 字符 组 集合 运算 ， 但 支持 环 
视 功 能 (7133), 则 可 以 自己 模拟 集合 运算 。[\p{InThaijgg[^\ptcnj]1] 可 以 用 环视 功能 
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写成 ”(?i\p{cn})\p{InThai}l (H 13)。 尽 管 它 并 不 如 内 建 的 集合 运算 有 效率 ， 环 视 仍然 
是 非常 方便 的 做 法 。 这 个 例子 可 以 用 4 种 不 同 的 方式 来 实现 (在 .NET 中 需要 以 IsThai $ 
换 InThai® 125), 





(?!\p{Cn}) \p{InThai} 
{?=\P{Cn}) \p{InThai} 
\p{InThai} (?<!\p{Cn}) 
\p{InThai} (?<=\P{Cn}) 


POSIX“ 字 符 组 ” 方 括号 表示 法 


我 们 通常 所 说 的 字符 组 ， 在 POSIX 标准 中 称 为 方 括号 表达 式 (bracket expression), POSIX 
中 的 术语 “字符 组 ” 指 的 是 在 方 括号 表达 式 ( 注 14) 内 部 使 用 的 一 种 特殊 的 功能 (special 
feature) ， 而 我 们 可 以 认为 它们 是 Unicode 的 字符 属性 的 原型 。 


POSIX 字符 组 是 POSIX 方 括号 表达 式 使 用 的 几 种 特殊 元 字符 序列 之 一 。 比 如 [ :lower: ] 表 
示 当 前 locale (787) 中 的 所 有 小 写字 母 。 对 英文 文本 来 说 ，[ :1ower:] 等 于 a-z。 因 为 整 
个 序列 只 有 在 方 括号 表达 式 内 才 是 有 效 的 ,所 以 对 应 的 完整 的 字符 组 应 该 是 [[ :lower:]]u。 
这 种 表示 法 的 确 很 难看 。 但 是 ， 它 比 La-z], 更 好 用 ， 因 为 它 能 包含 ò, A 之 类 当前 locale 
中 定义 的 “小 写字 母 ”。 


POSIX 字符 组 的 详细 列表 根据 locale 的 变化 而 变化 ， 但 是 下 面 这 些 通常 都 能 支持 : 


[:alnum:] 字母 字符 和 数字 字符 。 

[:alpha:] 字母 。 

[:blank:] 空格 和 制 表 符 

[:cntrl:] 控制 字符 。 

[:digit:] KF. 

[:graph:] ” 非 空 字符 ( 即 空白 字符 ， 控 制 字符 之 外 的 字符 )。 
[:lower:] 小 写字 母 。 

[:print:] 类 似 [:graph:]， 但 是 包含 空白 字符 。 
(:punct:] 标点 符号 。 

[:space:] ”所 有 的 空白 字符 (【[:blank:] 、 换 行 符 、 回 车 符 及 其 他 )。 
[:upper:] 大 写字 母 。 

[ 


:xdigit:] 十 六 进 制 中 容许 出 现 的 数字 (例如 0-9a-fA-F)。 


注 13: 实际 上 ， 在 Perl 中 ， 这 个 例子 可 能 可 以 写作 "\p{Thai};， 因 为 在 Perl 中 \p{Thai) 表 是 
FRR, COPARMMMAGA. Thai 字母 表 和 区 块 之 前 的 其 他 差异 很 小 。 如 果 要 确定 
某 个 字母 表 或 者 区 块 实际 包含 了 哪些 字符， 最 好 的 办 法 还 是 参考 文档 。 在 这 里 ， 字 母 表 
其 实 少 了 一 些 区 块 中 包含 的 特殊 字符 。 请 泰 考 hitp:/unicode.org 获得 所 有 细节 。 

ig 14: 一 般 来 说 ， 本 书 中 的 “字符 组 (character class)” fe “POSIX 括号 表达 式 (POSIX bracket 
expression)” 是 指 的 同一 种 结构 ， 而 “POSIX 字 桂 组 ” 指 的 是 下 面 介绍 的 特殊 的 类 似 范 
围 表 示 法 的 字符 组 特性 。 


iti 
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支持 Unicode 属性 (7121) 的 系统 可 能 会 在 Unicode 支持 中 加 入 这 些 POSIX 结构 。Unicode 
属性 结构 更 为 强大 ， 所 以 如 果 可 能 ， 这 些 结构 应 该 有 提供 。 


POSIX “collating 序列 ” 方 插 号 表示 法 : [[.span-11.]] 


Local 可 以 包含 对 应 的 collating 序列 , 用 来 决定 其 中 的 字符 如 何 排序 。 例 如 , 在 西班牙 语 中 ， 
按照 惯例 ，11 两 个 字母 在 排序 时 作为 一 个 逻辑 字符 (例如 在 tortilla 中 ), 排 在 1 和 nm 之 间 ， 
日 尔 曼 语 字 母 8 位 于 s Alt 中间， 但 是 排序 时 类 似 它 等 价 于 两 个 字母 ss。 这 些 规则 可 能 用 
collating 序列 命名 来 表示 ， 例 如 ，span-11 和 eszet。 


collating 序列 会 把 多 个 实体 字符 映射 到 单个 逻辑 字符 , 在 span-11 的 例子 中 , 11 被 视 为 “一 
个 字符 ”, 来 保持 与 POSIX 正则 引擎 的 兼容 。 也 就 是 说 ，[^abc], 能 够 匹配 “11” 两 个 字母 。 


collating 序列 的 元 素 可 以 包含 在 方 括号 表达 式 中 ， 使 用 [.… .] 表 示 法 : 'torti[[. 
span-11.]]al 匹 配 tortilla。 单 个 collating 序列 可 以 匹配 组 合 而 成 的 字符 。 此 种 情况 下 ， 
方 括号 表达 式 可 以 匹配 多 个 实体 字符 。 


POSIX “字符 等 价 类 ” 方 括号 表示 法 : [[=n=] ] 


有 的 locale 定义 了 字符 等 价 类 ， 表 示 某 些 字符 在 进行 排序 之 类 的 操作 时 应 视 为 等 价 。 例 如 ， 
$ locale 可 能 定义 了 这 样 一 个 等 价 类 “n', 包含 n 和 二 , 或 者 是 另 一 个 等 价 类 “a'" ,包含 a、 
区 和。 等 价 类 的 表示 法 类 似 [:… :1], 但 是 用 等 号 取代 冒号 ,我们 可 以 在 方 括 号 表达 式 中 引 
用 这 些 等 价 类 : '[[=n=] [=a=]]1 能 够 匹配 刚才 出 现 的 任意 一 个 字符 。 


如 果 一 个 字符 等 价 类 的 名 称 只 包含 一 个 字母 , 但 没有 在 locale FEX, 则 它 默 认 就 等 于 同样 
名 字 的 collating 序列 。local 通常 包含 作为 collating 序列 的 普通 字符 [.a.]、[.b.]、[.c.] 
之 类 一 一 如 果 没 有 定义 特殊 的 等 价 类 ，[[=n=] [=a=]], 就 等 于 '[nalj。 


Emacs 语法 类 


GNU Emacs 不 支持 传统 的 \w、\s 之 类 相反 , 它 使 用 特殊 的 序列 来 引用 “语法 类 (syntax 


classes)”; 
\schar 匹配 Emacs 语法 类 中 char 描述 的 字符 。 
\Schar 匹配 不 在 Emacs 语法 类 中 的 字符 。 
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Aswi 匹配 “构成 单词 (word constitvent)” 的 字符 , 而 仆 s-, 匹 配 “ 空 白字 符 " 。 在 其 他 系统 
中 ， 它 们 分 别 写作 改 w 和 八 si。 


Emacs 的 特殊 之 处 在 于 ， 在 Emacs 中 ， 这 些 字 符 组 包含 的 字符 是 可 以 临时 更 换 的 ， 所 以 ， 
构成 单词 的 字符 组 中 的 字符 可 以 根据 所 编辑 文本 的 变化 而 变化 。 


锚 点 及 其 他 “ 零 长 度 断言 


Anchors and Other “Zero-Width Assertions ” 


RAC “SETS” FFARR A, RAHA, 


行 /字符 串 的 起 始 位 置 : ^、\&A 


脱 字符 “, 匹配 需要 搜索 的 文本 的 起 始 位 置 ， 如 果 使 用 了 增强 的 行销 点 匹配 模式 (7112), 
它 还 能 匹配 每 个 换行 符 之 后 的 位 置 。 在 某 些 系 统 中 ， 增 强 模 式 下 人 ^, 还 能 匹配 Unicode 的 行 
终结 符 (7109), 


如 果 可 以 使 用 ， 则 无 论 在 什么 匹配 模式 下 ,"\A 总 是 能 够 匹配 待 搜 索 文本 的 起 始 位 置 。 
行 /字符 串 的 结束 位 置 : $、\z 和 \z 


从 下 一 页 的 表格 3-11 可 以 看 出 ,“ 行 结束 位 置 (end of line)” 的 概念 比 行 开头 位 置 要 复杂 。 
ERAN CARES, Ss 的 意义 也 不 同 ， 不 过 最 常见 的 意思 是 匹配 目标 字符 串 的 末尾 ， 也 
可 以 匹配 整个 字符 串 末 尾 的 换行 符 之 前 的 位 置 。 后 一 种 情况 更 为 常见 , EAE s$ (匹配 “以 
s 结尾 的 行 ") 来 匹配 “…s 四 ' ， 即 以 s 和 换行 符 结尾 的 行 。 


$1 的 另 两 种 常见 的 意思 是 ， 只 匹配 目标 文本 的 结束 位 置 , 或 是 匹配 任何 一 个 换行 符 之 前 的 
位 置 ,在 某 些 Unicode 系统 中 , 这 些 规 则 中 的 换行 符 会 被 替换 为 Unicode 的 行 终结 符 ( 亚 109) 
(Java 为 了 处 理 Unicode 的 行 终结 符 ， 为 "$1 设 定 了 非常 复杂 的 语意 “370)。 


匹配 模式 (112) 可 以 改变 '$, 的 意义 ,匹配 字符 申 中 的 任何 换行 符 (或 者 是 Unicode 中 的 
行 终结 符 )。 


MRE, \z: 通 常 表示 “未 指定 任何 模式 下 ” '$ 匹配 的 字符 , 通常 是 字符 串 的 末尾 位 置 ， 
或 者 是 在 字符 串 末 尾 的 换行 符 之 前 的 位 置 。 作 为 补充 , \z, 只 匹配 字符 串 的 末尾 ， 而 不 考虑 
任何 换行 符 。 表 3-11 中 列 出 了 少数 例外 。 


itl 
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表 3-11: 脚本 语言 中 的 行 锚 点 





正常 情况 

^ 匹配 字符 事 起 始 位 置 4 4 / J J V V 

^ 匹配 任意 换行 和 f 

$ 匹配 字符 囊 的 结束 位 置 Y A 4 / / v / 

S 匹配 字符 囊 结尾 的 换行 符 LA. á 

5 匹配 任何 换行 符 Y: 

提供 增强 型 行 锚 点 模式 (7112) | J / / / / 

在 增强 型 行 锚 点 模式 中 

^ 匹配 字符 囊 的 起 始 位 置 / ti / NA Vv / 

^ 匹配 任何 换行 符 之 后 的 位 置 4; Vv / / N/A / / 

$ 匹配 字符 事 的 末尾 / / / # NA vv / 

$ 匹配 任何 换行 符 之 前 的 位 置 /i Jf / W NA Vv / 

\A 总 是 与 普通 的 ^ 一 样 / / / r “4 / 

\Z 总 是 与 普通 的 $ 一 样 /i / J “3 "5 / / 
/ / N/A N/A / / 


\z 总 是 匹配 字符 事 的 末尾 4 


w 

在 这 些 情 况 下 ，Sun 的 Java regex package 支持 Unicode 的 行 终结 符 (7109), 

Ruby 的 S 和 ^ 能 匹配 字符 事 中 的 换行 待 ， 但 是 \RA 和 \Z 则 不 能 。 

Python 的 \Z 只 能 匹配 字符 囊 的 结束 位 置 。 

Ruby 的 \A 与 ^ 不 同 ， 只 能 匹配 字符 囊 的 起 始 位 置 。 

Ruby 4\2 与 $ 不 同 ， 可 以 匹配 字符 事 的 结尾 位 置 ， 或 是 字符 事 结 尾 的 换行 符 之 前 的 位 置 。 
(请 参考 第 91 页 的 版 本 信息 ) 


匹配 的 起 始 位 置 (或 者 是 上 一 次 匹配 的 结束 位 置 ) \G 


NGi 首 先 出 现在 Perl 中 。 在 使 用 /g (951) 的 匹配 中 ，\G 对 迭代 操作 非常 有 用 ， 它 能 够 匹 
配 上 一 次 匹配 结束 的 位 置 。 在 第 一 次 迭代 时 , "Gj 匹配 字符 串 的 开头 ， 与 \a 一样 。 


如 果 匹 配 不 成 功 , \G, 的 匹配 会 重新 指向 字符 串 的 起 始 位 置 。 这 样 ， 如 果 重 复 应 用 某 个 正则 
表达 式 , 例如 进行 Perl 的 's/…/…/g) 操作, 或 者 在 其 他 语言 中 调用 “ 找 出 所 有 匹配 (match 
all)” 函 数 ， 在 匹配 失败 的 同时 , \G, 也 会 指向 字符 串 的 开头 位 置 ， 这 样 以 后 进行 其 他 类 型 
的 匹配 操作 便 不 受 影 响 。 


根据 我 的 观察 ，Perl 的 \G, 有 3 个 值得 注意 而 且 很 有 用 的 方面 : 


。 Ac 的 指向 位 置 是 每 个 目标 字符 串 的 属性 , 而 不 是 设 定 这 些 位 置 的 正则 表达 式 的 属性 。 
也 就 是 说 ， 多 个 正则 表达 式 可 以 依次 对 同一 个 字符 串 进行 匹配 ， 都 使 用 上 一 轮 匹 配 设 
ERJ AG 


www.TopSage.com 


常用 的 元 字符 和 特性 | 131 


。 Pel 的 正则 运算 符 有 一 个 选项 (Perl 的 /c 修饰 符 了 315)， 它 规定 了 ， 如 果 匹 配 失败 ， 
不 要 重新 设 定 \G!， 而 只 是 保持 之 前 的 值 不 变化 。 如 果 结 合 上 面 那 一 点 ， 就 可 以 从 菜 
个 位 置 开始 尝试 用 多 个 正则 表达 式 进行 匹配 ， 直 到 匹配 能 够 成 功 ， 然 后 在 下 面 的 文本 
中 继续 寻找 匹配 。 


。 ”I\G1 对 应 的 属性 可 以 用 与 正则 表达 式 无 关 的 结构 (Perl 的 pos 函数 313) 来 检查 和 修 
改 。 可 能 有 人 希望 设 定 这 个 位 置 来 “规定 ”从 什么 位 置 开始 寻找 匹配 ， 以 及 只 从 那个 
位 置 开 始 的 匹配 。 同 样 ， 如 果 语 言 支持 本 条 功能 ， 而 没有 直接 提供 上 一 条 功能 ， 我 们 
可 以 用 本 条 功能 来 模拟 。 


下 页 的 补充 内 容 中 有 个 例子 展示 了 这 些 特性 的 用 法 。 除 了 这 些 便捷 之 外 , Perl 的 "GJ 还 存在 
一 个 问题 ， 即 它 必 须 出 现在 正则 表达 式 的 开头 ， 这 样 才能 正常 工作 。 不 过 幸运 的 是 ， 这 似 
平 是 最 自然 的 用 法 。 


之 前 匹配 的 结束 位 置 ， 还 是 当前 匹配 的 开始 位 置 ? 


不 同 的 实现 方式 之 间 存 在 一 个 区 别 ,\G) 匹配 的 到 底 是 “当前 匹配 的 起 始 位 置 ”还 是 “前 一 
次 匹配 的 结束 位 置 "。 在 绝 大 多 数 情况 下 ， 这 两 者 是 等 价 的， 所 以 大 多 数 时 候 这 个 问题 并 不 
要 紧 。 但 也 有 些 不 常见 的 情况 下 ， 它 们 是 有 区 别 的 。215 页 有 个 例子 说 明了 这 种 情况 ， 不 过 
最 容易 的 还 是 用 一 个 专门 的 例子 来 理解 :把 x?; 应 用 到 “abcae’ 。 这 个 表达 式 能 够 在 “abcde” 
匹配 成 功 , 但 其 实 它 没有 匹配 任何 文本 。 在 进行 全 局 查找 -替换 时 ,正则 表达 式 会 重复 应 用 ， 
每 次 处 理 上 一 次 操作 之 后 的 文本 , 除非 传动 装置 会 做 些 特 别 的 处 理 ,“ 上 次 匹配 完成 的 位 置 ” 
总 是 它 开始 的 位 置 。 为 了 避免 无 穷 循环 ， 在 这 种 情况 下 传动 装置 会 强行 前 进 到 下 一 个 字符 
(7148), WX} ‘abcde’ WJ s/x?/!1/g， 结 果 就 是 “!a!b!c!id!e!’。 


传动 装置 这 样 处 理会 带 来 一 个 问题 :“ 上 一 次 匹配 的 终点 ”不 等 于 “本 次 匹配 的 起 点 "。 如 
果 是 这 样 ， 问 题 就 来 了 : \G, 匹 配 哪 个 位 置 呢 ? 在 Perl H, X} ‘abcde’ 应 用 s/\Gx?/!/g 
得 到 “!abcae" ， 所 以 我 们 知道 ， 在 Perl 中 , '\c) 只 匹配 上 一 次 匹配 的 结束 位 置 。 如 果 传 动 
装置 自行 驱动 ，Perl 的 \G 肯定 无 法 匹配 。 


另 一 方面 ,在 其 他 某 些 工 具 软 件 中 使 用 同样 的 查找 -替换 命令 ,会 得 到 “!a!b!c!'d!ie!', 也 
就 是 说 \G 是 在 每 次 匹配 的 起 始 位 置 匹配 成 功 ， 然 后 由 传动 装置 进行 驱动 。 


关于 "\G! 的 匹配 , 也 不 能 完全 相信 文档 , 微软 的 .NET 和 Sun 的 Java 文档 , 在 我 通知 这 两 家 
公司 之 前 ， 都 是 错误 的 (然后 他 们 才 修 正 )。 现 在 的 状态 就 是 ，PHP 和 Ruby 中 的 \G, 指 向 
当前 匹配 的 开头 位 置 ， 而 Perl, java.util.regex 和 .NET 匹配 上 一 次 匹配 的 结束 位 置 。 
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Perl 中 \G 的 高 级 用 法 


下 面 的 程序 对 Shtml 中 的 HTML 代码 进行 简单 的 校 验 ， 确 保 其 中 只 有 少数 几 种 HTML 
结构 (例如 <IMG> 和 <A>， 以 及 &gt;)。 在 Yahoo! 我 用 这 种 方法 确保 用 户 提 交 的 HTML 
符合 某 些 规范 。 
这 段 代码 中 最 重要 的 就 是 Perl 的 m/…/gc 匹配 操作 符 ， 它 会 把 这 个 正则 表达 式 一 次 性 
应 用 到 目标 字符 事 ， 下 一 次 匹配 从 上 一 次 成 功 匹配 之 后 的 文本 开始 ， 如 果 匹 配 失败 ， 
也 ,不 会 重新 设 定 position (7315), 
这 样 ， 我 们 就 能 用 包含 多 个 表达 式 的 “tag team” 来 检查 字 科 事 。 从 理论 上 说 、 它 好 像 
对 所 有 这 些 表达 式 进行 整体 的 和 迭代， 但 是 这 段 程 序 的 执行 单位 不 是 一 次 表达 式 而 是 一 
次 匹配 ， 而 且 能 够 临时 新 增 或 排除 某 些 表达 式 。 

my $need_close_anchor = 0; # 如 果 遇 见 了 <A> 而 没有 对 应 的 </A>， 则 返回 True 


while (not $html =~ m/\G\z/gc) # 在 整个 字符 事 没 有 处 理 完 之 前 
{ 
if ($html =~ m/\G(\w+)/gc) { 
. . WKS) 中 包含 数字 或 单词 可 以 检查 语言 的 规范 性 ... 
elsif {$html =~ m/\G[^<>&\w]+/gc}) { 
# 其 他 非 HTML 代码 一 一 无 关 紧 要 
elsif ($html =~ m/\G<img\s+([4>]+)>/gci) { 
...@@ image 上 tag 一 一 可 以 检查 它 是 否 桂 合 规范 . . . 


elsif (not $need_close_anchor and $html =~ m/\G<A\s+([*>]+)>/gci) { 
.. .包含 超 链接 ， 这 里 可 以 进行 验证 、.. 


$need_close_anchor = 1; # 我 们 现在 需要 的 是 </A> 
elsif ($need_close_anchor and $html =- m{\G</A>}gci) { 
$need_close_anchor = 0; # 需求 已 经 满足 ， 不 再 容许 出 现 
elsif ($html =~ m/\G&(#\d+<\w+) 7/gc) { 
# 容许 出 现 &gt ;和 &#123; 之 于 的 entity 
else (# 此 处 完全 无 法 匹配 ，', 必 人 然 有 错误 。 记 下 当前 位 置 ， 从 HTML 中 提取 若干 字符 ， 报 告 错误 
my $location = pos($html); # 记 下 这 段 HTML 的 起 始 位 置 
my ($badstuff) = $html =~ m/\G(.{1,12})/s; 
die "Unexpected HTML at position S$location: $badstuff\n"; 
} 
} 


# 确保 没有 孤立 的 <A> 
if (Sneed_close_anchor) { 
die "Missing final </A>" 
} 
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单词 分 界 符 : \b、\B、 \<、\> o 


单词 分 界 符 的 作用 与 行 锚 点 一 样 ， 也 是 匹配 字符 串 中 的 某 些 位 置 。 单 词 分 界 符 可 以 分 为 两 
类 ,一 类 中 单词 起 始 位 置 分 界 符 和 结束 位 置 分 界 符 是 相同 的 (通常 是 \< 和 \>)， 另 一 类 则 以 
统一 的 分 界 符 来 匹配 (通常 是 \b)。 两 类 都 提供 了 非 单词 分 界 符 序列 (通常 是 \B)。 表 3-12 
给 出 了 一 些 例子 。 如 果 所 使 用 的 工具 软件 没有 提供 单独 的 起 始 位 置 和 结束 位 置 分 界 符 ， 但 
支持 环视 功能 ， 用 户 也 可 以 用 它 来 模拟 那 两 种 单词 分 界 符 。 在 下 面 的 表格 中 ， 如 果 程 序 本 
身 没有 提供 分 开 的 单词 分 界 符 ， 我 会 列 出 实践 中 的 做 法 。 


单词 分 界 符 通常 可 以 这 样 理解 ， 这 个 位 置 的 一 边 是 “单词 字符 (word character)”， 另 一 边 
则 不 是 。 每 种 工具 软件 对 “单词 字符 ”的 理解 都 不 一 样 ， 对 单词 边界 的 理解 也 是 这 样 。 如 
果 单 词 分 界 符 等 于 \w 当然 好 办 ， 但 很 多 时 候 事实 并 非 如 此 。 例 如 ， 在 PHP 和 java.util. 
regex 中 ，\w 只 能 匹配 ASCI 字符 ， 而 不 是 Unicode 字符 ， 所 以 在 表格 中 我 会 使 用 带 有 
Unicode 单词 属性 \pL (这 是 \p{L)》 的 缩 略 表示 法 灾 121) 的 环视 功能 。 


无 论 单词 分 界 符 怎么 定义 “单词 字符 ”， 单 词 分 界 符 的 测试 通常 只 是 简单 的 字符 相 邻 测试 。 
所 有 的 正则 引擎 都 不 会 对 单词 进行 语意 分 析 : 它们 认为 “NE14AD8" 是 一 个 单词 , 而 “MLT” 
不 是 。 


顺序 环视 (?=…)、(?1!…) ， 逆 序 环视 (?<=…)、(?<!…) 


在 前 一 章 “ 使 用 环视 功能 在 数值 中 插入 逗号 ”(=59) 的 例子 中 ， 我 们 已 经 介绍 过 顺序 环视 
和 逆序 环视 结构 (统称 为 环视 )。 但 关于 它们 还 有 很 重要 的 一 点 没有 介绍 ， 那 就 是 环视 结构 
中 能 够 出 现 什 么 样 的 表达 式 。 大 多 数 实现 方式 都 限制 了 逆序 环视 中 的 表达 式 的 长 度 (但 是 
顺序 环视 则 没有 限制 )。 


Perl 和 Python 的 限制 是 最 严格 的 ， 逆 序 环视 只 能 匹配 固定 长 度 的 文本 。 使 用 (?<!\w) 和 
(?<!this1that) 不 会 出 错 ,但 是 (2<! books?) Fl(2<!*\we:) WAS, 因为 它们 匹配 的 文 
本 的 长 度 是 不 确定 的 。 某 些 情况 下 ，(?<!books?) 可 以 重 写 为 ‘(?<!book) (?<!books) 1, 尽 
管 第 一 眼看 上 去 它 并 不 好 理解 。 


(ii 
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表 3-12: 若干 工具 软件 中 使 用 的 单词 分 界 符 元 字符 













"a | 单词 分 界 符 a 分 界 符 _ 
GNU awk 
aaa 
GNU Emacs woo h 
Java (?<!pL) (?=\pL) = (?<=pL) (?!\pL) \B 因 
SG 
.NET (?<!\w) (?=\w) =- (?<=\w) (?!\w) 

Perl (2<!\w) (?=\w) ++ (2<=\w) (21 \w) 

PHP 

Python 

Ruby 

GNU sed 

Tel 





四 表示 只 能 对 ASCH 中 的 字符 (或 者 是 基于 locale 的 8 位 编码 数据 ) 有 效 ， 即 使 该 流派 支持 
Unicode 也 是 如 此 。 


(请 参考 第 91 页 的 版 本 信息 ) 


更 高 一 层次 的 支持 容许 逆序 环视 中 出 现 不 同 长 度 的 多 选 分 支 ， 所 以 (?<!books?) 可 以 写作 
(?<!book1books) 。PCRE (因此 也 包括 PHP 中 的 preg 套件 ) 支持 此 功能 。 


最 高 层次 的 支持 可 以 匹配 任意 长 度 的 文本 ， 只 是 其 长 度 不 能 为 无 限 。'(?<!books?) ,可 以 直 
接 使 用 ， 但 是 (?<!\w+:) 则 不 行 ， 因 为 \w+ 能 够 匹配 的 长 度 没 有 限制 。Sun 的 Java regex 
package 支持 这 样 。 


就 问题 本 身 来 说 ， 这 三 级 支持 其 实 是 一 样 的 ， 因 为 它们 都 表达 同样 的 意思 ， 尽 管 有 的 表达 
方式 可 能 不 太 好 看 , 而 且 对 匹配 的 长 度 进行 了 严格 的 限制 .中 间 一 级 只 不 过 是 “语法 (syntactic 
sugar)”， 表 达 方 式 更 美观 而 已 。 而 第 四 级 支持 容许 逆序 环视 结构 中 的 子 表达 式 匹配 任意 长 
度 的 文本 ， 甚 至 包括 (?<!^\w+ :),。 微 软 的 .NET 就 支持 这 一 级 ， 它 无 疑 是 最 棒 的 ， 但 是 如 
果 运 用 不 当 ， 也 可 能 带 来 严重 的 效率 问题 (如 果 逆 序 环 视 能 够 匹配 任意 长 度 的 文本 ， 引 擎 
必须 从 字符 串 的 起 始 位 置 开 始 检查 逆序 环视 表达 式 ， 如 果 逆 序 环 视 是 从 长 字符 串 的 尾 端 开 
始 的 ， 这 样 就 会 浪费 许多 工夫 )。 
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注释 和 模式 修饰 符 


Comments and Mode Modifiers 


在 许多 流派 中 ， 使 用 下 面 的 结构 ， 就 能 够 在 正则 表达 式 内 部 ， 切 换 使 用 之 前 介绍 的 正则 表 
达 式 模式 和 匹配 模式 (7110), 


模式 修饰 符 :(?modifier) ， 例 如 (?1) 和 (?-i) 


现在 ， 有 许多 流派 容许 在 正则 表达 式 中 设 定 匹 配 模式 (7110), BRR Oi), EAA 
用 不 区 分 大 小 写 的 匹配 , 而 '(?-i) ,会 停 用 此 功能 。 例如，<B>(?i)very(?-i)</B>, 会 对 中 
IAA ‘very 进行 不 区 分 大 小 写 的 匹配 。 而 两 端的 tag 仍然 必须 为 大 写 。 它 可 以 匹配 
“<B>VERY</B>” 和 “<B>Very</B> "， 但 不 能 匹配 “<b>Vvery</b> '"。 


这 个 例子 在 大 多 数 支 持 ' (?i)) 的 系统 中 都 可 以 运行 ， 例 如 Perl, PHP, java.util.regex, 
Ruby ( 注 15) 和 .NET。 在 Python 和 Tel 中 则 不 行 ， 因 为 它们 不 支持 5(?-i)。 


除 Python 之 外 , 大 多 数 实现 方式 中 ，(?i) ,的 作用 范围 都 只 限于 括号 内 部 (也 就 是 说 , 在 闭 
括号 之 后 就 失效 )。 所 以 , 我 们 可 以 拿 掉 '(?-i),, 将 整个 不 需要 区 分 大 小 写 的 部 分 放 在 一 个 
括号 里 ， 把 '(?i), 放 在 最 前 面 : [<B>(?: (?i)very)</B>), 


模式 修饰 符 中 能 够 出 现 的 不 只 有 “i'。 在 大 多 数 系统 中 ， 我 们 至 少 可 以 使 用 表 3-13 列 出 的 
修饰 符 。 有 的 系统 还 提供 了 更 多 的 选项 。 比 如 PHP 就 提供 了 少数 其 他 选项 (446)，Tecl 
也 是 如 此 (请 参考 文档 )。 


表 3-13: 常见 模式 修饰 符 字母 






不 区 分 大 小 写 的 匹配 模式 (7110) 
宽松 排列 和 注释 模式 (7111) 
点 号 通 配 模式 (7111) 
增强 的 行 锚 点 模式 (7112) 











3 Ww x ade 


模式 作用 范围 : (?modifier:...) ， 例 如 (?i:…) 


如 果 所 使 用 的 系统 支持 模式 修饰 范围 ， 这 样 前 一 节 的 例子 可 以 更 加 简化 。"(?i:…) ,表示 模 
式 修饰 符 的 作用 范围 只 有 在 括号 内 有 效 。 这 样 , '<B>(?: (?i)very)</B>, 就 可 以 化 简 为 


[<B>(?1 *VeIYy)</B>l。 


注 15: 在 Ruby 中 可 以 运行 ， 但 Ruby 的 (?i) 有 个 bug， 即 它 有 时 不 能 正确 处 理 用 1 分隔 的 小 
写 多 选 分 支 (大 写 则 没有 问题 ) 。 
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如 果 支 持 ， 这 种 格式 一 般 可 以 应 用 于 所 有 的 模式 修饰 符 字 母 。Tcl 和 Python 都 支持 Oi) 
格式 ,但 是 不 支持 (?i:…) ,格式 。 


注释 : ( Piece ) Hye 


某 些 流派 支持 用 '(?#…) ,添加 注释 。 实 际 上 ， 如 果 流 派 支持 宽松 排列 和 注释 模式 (7111), 
就 很 少 使 用 这 种 功能 。 不 过 ， 如 果 在 字符 串 文字 中 很 难 插 入 换行 符 ， 用 这 种 格式 加 入 注释 
就 非常 方便 ， 例 如 VB.NET 就 是 如 此 (799, 420), 


文字 文本 范围 : \Q...\E 


\Q…\E 是 由 Perl 引入 的 ， 它 会 消除 其 中 除 \E 之 外 所 有 元 字符 的 特殊 含义 (如 果 没有 \E， 就 
会 一 直 作 用 到 正则 表达 式 末 端 )。 其 中 的 所 有 字符 都 会 被 当成 普通 文字 文本 来 对 待 。 如 果 在 
构建 正则 表达 式 时 包含 变量 ， 此 功能 就 非常 有 用 。 


举例 来 说 ， 为 了 响应 Web RE, 我们 可 能 希望 把 用 户 输入 的 内 容 保 存在 $query 中 ,然后 使 
用 m/$query/i。 但 是 ， 如 果 $query 包含 某 些 字 符 ， 例 如 “Cc:\wWINDOWS\”， 结 果 是 运行 时 
错误 ， 因 为 这 不 是 一 个 合法 的 正则 表达 式 (最 后 有 一 个 单独 的 反 斜 线 )。 


\Q…ABI 可 以 解决 这 个 问题 如果 在 Perl 中 使 用 m/\Qsquery\E/i, 则 $query 就 从 ‘C:\WIN- 
DOWS\” 变 成 "cC\:\\WINDOWS\\， 结 果 能 找到 用 户 期 望 的 “c:\wINDOWS\ "。 


但 是 在 面向 对 象 和 程序 式 处 理 (795) 中 ， 这 个 特性 的 用 处 要 打折 扣 。 在 构建 需要 用 在 正 
则 表达 式 中 的 字符 串 时 ， 有 很 方便 的 函数 对 这 个 值 “ 上 保险 "， 以 便 用 在 正则 表达 式 中 。 例 
如 ,在 VB 中 ,我 们 可 以 使 用 Regex.Escape( 了 432);PHP 提供 了 preg_quote MH (7470), 
Java 有 quote 方法 (9395), 


就 我 所 知 , 支持 \Q…\B 的 引擎 只 有 java.util. regex 和 PCRE (也 包括 PHP 的 preg 套件 )。 
请 注意 ， 我 刚刚 提 到 ， 这 个 功能 是 在 Perl 中 引入 的 (而 且 我 给 出 了 Perl 的 例子 )， 你 可 能 觉 
得 很 奇怪 ,为 什么 刚刚 没有 提 到 Perl, Perl 支持 正则 文字 中 的 \Q…\E (也 就 是 直接 出 现在 程 
序 中 的 正则 表达 式 )， 但 是 不 能 在 可 能 使 用 插值 的 内 容 和 变量 上 使 用 。 细 节 问 题 请 参考 第 7 
章 (7290), 


在 低 于 1.6.0 的 Java 中 ，java.util.regex 对 字符 组 中 的 八 Q…\Ei KHER HRN, HA 
议 使 用 。 


| 
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分 组 ， 捕 获 ， 条 件 判断 和 控制 


Grouping, Capturing, Conditionals, and Control 


捕获 /分 组 括号 : (...) M1, \2, 


普通 的 无 特殊 意义 的 括号 通常 有 两 种 功能 : 分 组 和 捕获 。 普 通 括 号 常见 的 形式 是 '(…),, 但 
有 的 流派 中 使 用 (…\),， 例 如 GNU Emacs, sed, vi 和 grep, 


如 41、43 和 57 页 的 图 所 示 ， 捕 获 型 括号 的 编号 是 按照 开 括 号 出 现 的 次 序 ， 从 左 到 右 计 算 
的 。 如 果 提 供 了 反 向 引用 ， 则 这 些 括号 内 的 子 表达 式 匹 配 的 文本 可 以 在 表达 式 的 后 面部 分 
用 N41), \2, 来 引用 。 


括号 的 常用 功能 之 一 是 从 字符 串 中 提取 数据 。 括 号 中 的 子 表达 式 匹配 的 文本 (也 可 以 称 为 
“括号 匹配 文本 (the text matched by the parentheses)”) 在 不 同 的 程序 中 可 以 通过 不 同 的 方 
式 来 引用 ， 例 如 Perl 的 $1 和 $2 (常见 的 错误 是 在 正则 表达 式 之 外 使 用 仆 1,， 这 种 形式 只 在 
sed 和 vi 中 能 用 )。 下 一 页 的 表 3-14 说 明了 各 种 程序 中 ， 匹 配 完成 之 后 访问 文本 的 方法 。 它 
还 说 明了 访问 整个 表达 式 匹 配 的 文本 ， 或 者 某 一 组 捕获 型 括号 所 匹配 文本 的 做 法 。 


仅 用 于 分 组 的 插 号 : (?:…) 


仅 用 于 分 组 的 括号 '(?:…) 不 能 用 来 提取 文本 ， 而 只 能 用 来 规定 多 选 结构 或 者 量词 的 作用 
对 象 。 它 们 不 会 按照 51、$2 之 类 编号 。 在 '(11one) (?: andlor) (21two), 匹 配 之 后 ，$1 包 
含 '1 RH ‘one’ ,$2 包含 '2' 或 者 'two' 。 只 用 于 分 组 的 括号 也 叫 非 捕获 型 括号 (non-capturing 


parentheses ) 。 


非 捕获 型 括号 的 价值 体现 在 好 几 个 方面 。 它 们 能 够 把 复杂 的 表达 式 变 得 清晰 ， 这 样 读 者 不 
会 担心 在 其 他 地 方 用 到 $1 会 产生 混乱 。 而 且 它们 还 有 助 于 提高 效率 。 如 果 正 则 引擎 不 需要 
记录 捕获 型 括号 匹配 的 内 容 , 速度 会 更 快 , 所 用 的 内 存 也 更 少 (第 6 章 详细 讲解 效率 问题 ) 。 


非 捕获 型 括号 的 另 一 个 用 途 是 利用 多 个 成 分 构建 正则 表达 式 。 在 第 76 页 的 例子 中 ，$Host- 
nameRegex 保存 的 是 用 来 匹配 主机 名 的 正则 表达 式 。 如 果 使 用 它 来 提取 主机 名 两 端的 空白 ， 
在 Perl 中 是 m/ (\s*) SHostnameRegex(\s*)/。 然 后 S1 和 $2 分 别 保存 开头 和 结尾 的 空白 ， 
但 结尾 的 空白 其 实 是 保存 在 $4 中 的 ， 因 为 $HostnameRegex 包含 两 组 捕获 型 括号 。 


$HostnameRegex = qr/[-a-z0-9]+(\. [-a-z0-9]+)*\. (comledu|info)/i:; 
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表 3-14: 若干 工具 软件 及 其 中 访问 捕获 文本 的 方法 


= > ` < 


lenn TR GT S SS Sa a 人 

GNU egrep N/A N/A 

GNU Emacs (match_string 0) (match-string 1) 
(replacement 字符 事 中 为 \&) (replacement 字符 事 中 为 \1) 
Substr ($text, RSTART, RLENGTH 

MySQL N/A N/A 

Perl 一 41 $1 

PHP 7450 Smatches [1] 

Python 797 MatchObj . group (1) 

Ruby $1 


GNU sed \ RRA regex replacenent F) 

Java w95 MatcherObj .group (1) 

Tel 通过 regexp 命令 设置 为 用 户 选择 的 变量 

VB.NET 7°96 MatchObj .Groups (1) 

C# MatchObj .Groups [1] 
Cees 


vi \1 





(请 参考 第 91 页 的 版 本 信息 ) 
如 果 这 两 组 括号 是 非 捕获 型 的 ， 我 们 就 可 以 按照 直观 的 方式 使 用 SHostnameRegex。 另 一 种 
办 法 是 使 用 命名 捕获 ， 尽 管 Perl 没有 提供 这 种 功能 ， 我 们 还 是 会 介绍 它 。 


命名 捕获 : (?<Name>...) 


Python 和 PHP 的 preg 引擎 ， 以 及 .NET 引擎 ， 都 能 够 为 捕获 内 容 命名 。Python 和 PHP 使 用 
的 语法 是 (?P<name>…),， 而 .NET 使 用 !(?<name>…),。 我 更 喜欢 .NET 的 语法 。 下 面 是 一 
个 .NET 的 例子 : 


\p(?<Area>\d\d\d\)-(?<Exch>\d\d\d)-(?<Num>\d\d\d\d) \b; 


\b(?P<Area>\d\d\d\)-(?P<Exch>\d\d\d)-(?P<Num>\d\d\d\d) \b 


这 个 表达 式 会 用 美国 电话 号 码 的 各 个 部 分 “填充 ”Area、Exch 和 Num 命名 的 内 容 。 然 后 我 
们 可 以 通过 名 称 来 访问 各 个 括号 捕获 的 内 容 ， 例 如 在 VB.NET 和 大 多 数 .NET 语言 中 ， 可 以 
使 用 RegexObj.Groups ("Area")， 在 C# 中 使 用 RegexObj .Groups ["area"] ， 在 Python 中 
使 用 RegexObj.group("Area"), 在 PHP 中 使 用 $matches["Area"] 。 这 样 程序 看 起 来 更 清 
Hi. 
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如 果 要 在 正则 表达 式 内 部 引用 捕获 的 文本 , .NET {EH '\k<Area>), Python 和 PHP 中 使 用 


'(?P=Area) js, 


在 Pyhon 和 .NET (但 不 包括 PHP) 中 ， 可 以 在 同一 个 表达 式 中 多 次 使 用 同样 的 命名 。 例 如 
美国 电话 号 码 的 区 号 部 分 的 形式 是 “ (###) “或 者 “###- ,为 了 匹配 , 我 们 可 以 使 用 (用 .NET 
语法 ):“…(?:\((?<Area>\d\d\d)\}1{?<Area>\d\d\d)-)…J。 无 论 哪 一 组 匹配 成 功 ， 都 
会 把 3 位 的 区 号 保存 到 Area 中 。 


固化 分 组 : (?>...) 


如 果 详 细 了 解 正则 引擎 的 匹配 原理 (169)， 就 很 容易 理解 固化 分 组 。 在 这 里 只 说 一 点 ， 
就 是 一 旦 括号 内 的 子 表达 式 匹 配 之 后 ， 匹 配 的 内 容 就 固定 下 来 (固化 (atomic) 下 来 无 法 改 
E), 在 接 下 来 的 匹配 过 程 中 不 会 变化 ， 除 非 整 个 固化 分 组 的 括号 都 被 弃 用 ， 在 外 部 回溯 中 
重新 应 用 。 下 面 这 个 简单 的 例子 会 帮助 我 们 理解 这 种 匹配 的 “固化 ”性 质 。 


Get 能 够 匹配 “i1Hola!"， 但 是 如 果 '.*, 在 固化 分 组 ";(?>.*) !; 中 就 无 法 匹配 。 在 这 两 
种 情况 下 ，. *, 都 会 首先 匹配 尽 可 能 多 的 内 容 (' iHola;'), 但 是 之 后 的 "1 无 法 匹配 , 会 强 
迫 “释放 之 前 匹配 的 某 些 内 容 (最 后 的 “!')。 如 果 使 用 了 固化 分 组 ,就 无 法 实现 ， 因 为 
“….* 在 固化 分 组 中 ， 它 永远 也 不 会 “交还 ”已 经 匹配 的 任何 内 容 。 


尽管 这 个 例子 没有 什么 实际 价值 ， 固 化 分 组 还 是 有 重要 的 用 途 。 尤 其 是 ， 它 能 够 提高 匹配 
的 效率 (171)， 而 且 能 够 对 什么 能 匹配 ， 什 么 不 能 匹配 进行 准确 地 控制 (269)。 


ZRH. /.… Jee. 


多 选 结构 能 够 在 同一 位 置 测试 多 个 子 表达 式 。 每 个 子 表达 式 称 为 一 个 多 选 分 支 (alternative)。 
符号 0 有 很 多 称呼 ， 不 过 “或 (or)” 和 “ 坚 线 (bar)” 最 为 常见 。 有 的 流派 使 用 \ 1。 


多 选 结构 的 优先 级 很 低 ， 所 以 ‘this andlor that, 的 匹配 等 价 于 ‘(this and) | (or chac) 
而 不 是 ‘this (andlor) that), SR andlor 看 上 去 是 一 个 单位 。 


大 多 数 流派 都 容许 出 现 空 的 多 选 分 支 ， 例 如 (this1that 1 )j。 空 表达 式 在 任何 情况 下 都 能 
匹配 ， 所 以 这 个 例子 等 于 " (this1that)?l ( 注 16), 


注 16: 认真 考究 起 来 ，(thislthat1)) 在 还 辑 上 等 价 于 ((?:thislthat)?)1。 它 与 语句 
(this1lthat)?1 的 区 别 在 于 括号 中 是 否 包含 “没有 任何 内 容 的 匹配 ", 这 个 区 别 很 细 向 ， 
但 是 如 果 工 具 软 件 对 匹配 是 否 和 大 与 最 终 匹 配 会 区 别 对 待 ， 就 很 重要 。 


iil 
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POSIX 标准 禁止 出 现 空 多 选 分 支 ，lex 和 大 多 数 版 本 的 awk 也 是 如 此 。 我 认为 ,考虑 到 空 多 
选 分 支 的 简便 和 清晰 ， 保 留 它 不 无 益处 。Larry Wall 告诉 我 :“ 我 认为 ,保留 它 就 好 像 在 数 
学 中 保留 0 一 样 有 意义 ”。 


条 件 判 断 : (?if then lelse) 


这 个 结构 容许 用 户 在 正则 表达 式 中 使 用 iffthen/else 判断 。i 部 分 是 特殊 的 条 件 表达 式 (a 
special kind of conditional expression ) ， 下 文 马上 会 有 介绍 。then 和 else 部 分 是 普通 的 子 表达 
式 。 如 果 了 部 分 测试 为 真 ， 则 尝试 then 的 表达 式 ， 否 则 尝试 else 部 分 (else 部 分 也 可 以 不 
出 现 ， 果 真如 此 的 话 ， 可 以 省 略 “! )。 


小 的 种 类 因 流 派 的 不 同 而 不 同 , 但 是 大 多 数 实 现 方式 都 容许 在 其 中 引用 捕获 的 子 表达 式 和 环 
视 结 构 。 


测试 对 捕获 型 括号 的 特殊 引用 。 如 果 if 部 分 是 一 个 括号 中 的 编号 ， 而 对 应 编号 的 捕获 型 括 
号 参与 了 匹配 ， 其 值 为 “tue" 。 下 面 的 例子 匹配 <IMG> tag， 无 论 是 是 单独 出 现 的 ， 或 者 是 
在 <A>…</A> 中 出 现 的。 代码 采用 带 注释 的 宽松 排列 格式 ， 条 件 判 断 结构 (这 里 的 没有 else 
部 分 ) 以 粗 体 标注 。 

( <A\s+[*>]+> \s* )? # 匹配 开头 的 <A> tag， 如 果 存 在 的 话 


<IMG\s+[^>]+> # 匹配 <IMG> tag 
(?(1)\s*</A>) # 匹配 结 是 的 </A>， 如 果 之 前 匹配 过 <A> 


“(? (1)…) ,测试 中 的 (1) 会 测试 第 一 组 捕获 型 括号 是 否 参与 了 匹配 。“ 参 与 匹配 ”不 等 于 “ 实 
际 匹 配 了 文本 ”"， 来 看 个 简单 的 例子 : 


下 面 两 种 办 法 都 可 以 匹配 可 能 包含 在 “<…>” 中 的 单词 : “(<)?\w+(?(1)>) ,可 以 ， 
(<?) w+(?(1L) >), 则 不 行 。 它们 之 间 唯 一 的 区 别 在 于 第 一 个 问号 出 现 的 位 置 。 在 第 一 种 ( 正 
确 的 ) 办 法 中 ， 问 号 作用 于 整个 捕获 型 括号 ， 所 以 括号 (以 及 包含 的 内 容 ) 不 是 必须 匹配 
的 。 在 第 二 个 例子 中 ， 捕 获 型 括号 不 是 可 选 的 一 一 只 有 其 中 的 '</ 才 是 ， 所 以 无 论 “<' 
否 匹配 了 文本 ， 它 都 “参与 匹配 " 。 也 就 是 说 ，(?(1)…) 中 的 六 部 分 总 是 “tme”。 


如 果 能 够 使 用 命名 捕获 (138)， 就 可 以 在 括号 中 使 用 命名 ， 而 不 是 编号 。 


用 环视 做 测试 。 完 整 的 环视 结构 ， 例 如 和 (?=…) |; 和"(?<=…):， 可 以 用 于 六 测试 。 如 果 环 视 
能 够 匹配 ， 它 返回 “true”， 执 行 then 部 分 。 否 则 会 执行 else 部 分 。 来 看 个 专门 设计 的 例子 
(?.(2<=NUM:) \d+I\w+)1, 它 会 在 ‘NUM: | 之 后 的 位 置 尝试 匹配 d+, 但 是 在 其 他 位 置 尝试 
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使 用 "w+;。 环 视 条 件 判断 以 下 夯 线 标注 。 


条 件 判断 的 其 他 测试 。Perl 提供 了 一 种 复杂 的 条 件 判断 结构 ， 容 许 在 测试 中 使 用 任意 Perl 
代码 。 返 回 值 作为 测试 的 值 ， 根 据 它 来 判断 then 或 者 else 部 分 是 否 应 该 尝试 。 详 细 信息 请 
参考 第 7 章 的 第 327 页 。 


匹配 优先 量词 : *, +, ?, (num, num} 


量词 〈 星 号 、 加 号 、 问 号 ， 以 及 区 间 元 字符 ， 它 们 能 够 限制 作用 对 象 的 匹配 次 数 ) 已 经 有 
过 详细 介绍 。 不 过 ， 需 要 注意 的 是 ， 在 某 些 工具 中 使 用 \+: 和 人 ?来 取代 + 和 ?,。 同 样 ， 
在 某 些 更 老 的 工具 中 ， 量 词 不 能 限定 反 向 引用 ， 也 不 能 限定 括号 。 


区 间 : (min, max} 或 者 \ (min, max \} 


区 间 可 以 被 认为 是 “计数 量词 (counting quantifier)”"， 因 为 用 户 可 以 通过 区 间 指 定 匹 配 成 功 
所 必须 的 下 限 和 上 限 。 如 果 只 设置 了 一 个 数值 (例如 '[a-z] {3), 或 者 '[a-z]\{3\) 1， 依 流 
派 决定 )， 匹 配 的 次 数 就 等 于 这 个 值 。 它 等 同 于 '[a-z] [a-z] a-z] (尽管 两 者 的 效率 可 能 
有 所 不 同 251)。 


需要 注意 的 是 ， 不 要 认为 XO OREBE “x 不 能 出 现 "。Xx{0,0) 没有 意义 ， 因 为 它 的 
意思 是 “不 需要 匹配 x,， 也 就 是 说 实际 上 根本 不 需要 进行 任何 尝试 "。 它 基本 等 于 X00) 
不 存在 一 一 如 果 存 在 X， 它 也 可 以 被 正则 表达 式 之 后 出 现 的 某 些 元 素 匹 配 ， 所 以 这 种 做 法 
是 行 不 通 的 〈 注 17)。 要 实现 “不 容许 存在 ”， 请 使 用 否定 性 环视 。 


忽略 优先 量词 : *?、+?、??、{num,num}? 


有 的 工具 提供 了 不 那么 美观 的 量词 ，*?、+?、?? 和 {min, mar}?。 这 些 是 忽略 优先 的 量词 。 
量词 在 正常 情况 下 都 是 “匹配 优先 〈greedy)” 的 ， 匹 配 尽 可 能 多 的 内 容 。 相 反 ， 这 些 忽略 
优先 的 量词 会 匹配 尽 可 能 少 的 内 容 ， 只 需要 满足 下 限 ， 匹 配 就 能 成 功 。 其 中 的 差异 有 深远 
的 影响 ， 详 细 的 介绍 在 下 一 章 (7159), 


注 17: 从 理论 上 说 ， 我 关于 (0,0} 的 论述 是 没 错 的 。 但 是 ， 实 际 的 情况 灵 糟 炬 ， 因 为 它 会 产生 
随机 的 结果 ! 在 许多 程序 (包括 GNU awk, GNU grep 以 及 老 版 本 的 Perl) 中 ，{0,0} 就 
等 价 于 *, 而 在 其 他 许多 程序 (包括 我 曾 见 过 的 大 多 数 版 本 的 sed, 以 及 某 些 版 本 的 grep), 
中 等 同 ?。 这 真 叫 人 抓 狂 ! 
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占有 优先 量词 : *+, ++, 2+, {num, num}+ 


这 些 量词 目前 只 有 java.util.regex 和 PCRE (LIR PHP) 提供 , 但 是 很 可 能 会 流行 开 来 ， 
占有 优先 量词 类 似 普 通 的 匹配 优先 量词 ， 不 过 他 们 一 旦 匹配 某 些 内 容 ， 就 不 会 “交还 ”。 它 
们 类 似 固化 分 组 ， 如 果 理 解 了 基本 的 匹配 过 程 ， 就 很 容易 理解 占有 优先 量词 。 


从 某 种 意义 上 来 说 ， 占 有 优先 的 量词 只 是 些 表面 工夫 ， 因 为 它们 可 以 用 固化 分 组 来 模拟 。 
.++ 1 与 (?>.+)! 的 结果 完全 一 样 , 只 是 足够 智能 的 实现 方式 能 对 占有 优先 量词 进行 更 多 的 
优化 。 


高 级 话题 引导 


Guide to the Advanced Chapters 


我 们 已 经 熟悉 了 元 字符 、 流 派 、 语 法 包装 (syntactic packaging) 之 类 的 概念 ， 现 在 应 该 详 
细 介 绍 本 书 开头 提 到 的 第 三 点 了 ， 也 就 是 工具 软件 的 正则 引擎 如 何 把 一 个 正则 表达 式 应 用 
到 文本 当中 。 在 第 4 章 “正则 表达 式 的 匹配 原理 ”中 ， 我 们 会 看 到 匹配 引擎 的 实现 方式 如 
何 影响 匹配 的 完成 、 匹 配 的 内 容 ， 以 及 匹配 的 时 间 。 我 们 会 详细 考察 这 一 切 。 学 习 完 这 些 
知识 之 后 ， 你 在 调 校 复杂 的 正则 表达 式 时 会 更 有 信心 。 第 5 章 “ 实 用 正则 表达 式 技巧 ”会 
用 更 复杂 的 例子 巩固 这 些 知识 。 


接 下 来 是 第 6 章 “ 打 造 高 效率 的 正则 表达 式 "。 了 解 了 引擎 的 基本 工作 原理 之 后 ， 你 会 学 习 
到 如 何 充分 利用 这 些 知识 。 第 6 章 考 察 了 正则 表达 式 的 陷阱 一 一 它们 通常 会 导致 意外 的 结 
果 ， 然 后 教会 读者 真正 运用 书本 上 的 知识 。 


第 4、5、6 三 章 是 本 书 的 核心 。 头 三 章 只 是 为 它们 做 铺垫 ， 而 且 最 后 针对 工具 软件 的 章节 
以 它们 为 基础 。 核 心 章节 不 容易 阅读 ， 但 是 我 尽力 避免 使 用 数学 、 代 数 和 其 他 我 们 不 熟悉 
的 概念 。 但 是 ， 就 像 任 何 高 深 的 学 问 一 样 ， 汗 心 研 究 细节 需要 花费 相当 的 工夫 。 
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表达 式 的 匹配 原理 


The Mechanics of Expression Processing 


前 一 章 在 开头 类 比 了 正则 表达 式 与 汽车 ， 余 下 的 部 分 介绍 了 正则 表达 式 的 功能 、 特 点 以 及 
其 他 相关 信息 。 本 章 仍 会 使 用 这 个 类 比 来 说 明 重 要 的 正则 引擎 及 其 工作 原理 。 


为 什么 需要 了 解 这 些 原理 呢 ? 读者 将 会 了 解 到 ， 正 则 引擎 分 为 很 多 种 ， 最 常用 的 引擎 类 型 
一 Perl、Tel、Python、.Net、Ruby、PHP， 我 见 过 的 所 有 的 Java 正则 包 ， 以 及 其 他 语言 使 
用 的 工作 原理 ， 基 于 此 原理 ， 构 建 正则 表达 式 的 方式 决定 了 某 个 正则 表达 式 能 否 匹配 一 个 
MEFR, EMRE: RAEN SRO, ORI ARERR, 
请 阅读 本 章 。 a a 









发 动 引擎 


Start Your Engines! 


ers i 
现在 我 们 来 看 看 ， 引 擎 的 3 NMOS, ATE, AR 


His Dn Denn -AE A Allee viscera. A 
机 会 完成 余下 的 事情 。 它 的 主要 任务 就 是 驱动 车 轮 ， hid 没 必要 关心 它 是 如 何 工作 的 。 
是 这 样 吗 ? NA 
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两 类 引擎 


Two Kinds of Engines 


设想 一 下 驾驶 电动 汽车 的 情形 叶 电 动 汽 车 已 经 诞生 很 和 了， 但 它们 不 像 汽 油 发 动机 驱动 的 
汽车 那样 普及 ， 因 为 电动 汽车 还 不 够 成 熟 。 如 果 你 有 辆 电动 汽车 ， 请 记 住 别 给 它 加 油 。 如 
果 你 的 汽车 采用 汽油 发 动机 ,请 务必 远离 烟火 。 电 动机 目 禾 总 苞 “ 能 够 运行 "， 汽 油 机 则 需 
要 多 加 保养 。 更 换 火 花 塞 ,/ 空气 过 滤器 ， 或 者 换 用 不 同 品牌 的 汽油 ， 有 可 能 大 大 提升 发 动 
机 的 效率 。 当 然 ， 也 可 能 降低 汽油 机 的 性 能 ,或 者 导致 发 动机 罢工 。 不 同 引擎 的 工作 原理 
也 有 不 同 ， 但 目的 都 是 驱动 车 轮 ; 不 过 所 如 果 你 想 开 车 去 某 个 地 方 ， 还 得 把 好 方向 盘 ， 当 
然 ， 这 是 题 外 话 。 


新 的 标准 


New Standards 


让 我 们 看 看 添加 一 条 新 规范 ， 加 利 福 尼 亚 州 的 尾气 排放 标准 〈 注 1) 。 一 些 发 动机 达到 了 加 
州 的 严格 排放 标准 ， 一 些 则 没有 。 这 两 类 发 动机 并 没有 本 质 的 不 同 ， 只 是 按 标准 划分 为 两 
类 。 这 些 标准 规定 了 发 动机 尾气 排放 的 成 分 ， 而 并 没有 规定 发 动机 应 该 怎样 做 才能 达标 。 
所 以 ， 现 在 我 们 可 以 把 之 前 的 两 分 法 变 为 四 分 法 : 符合 标准 的 电动 机 、 不 符合 标准 的 电动 
机 、 符 合 标准 的 汽油 机 和 不 符合 标准 的 汽油 机 。 


回 到 原来 的 话题 ， 我 敢 打赌 ， 电 动机 不 需要 做 多 少 改动 就 可 以 达标 一 一 标准 只 是 “规定 ” 
尾气 的 成 分 ， 而 电动 机 几乎 没有 尾气 。 相 反 ， 汽 油 机 要 达标 可 能 就 需要 大 的 修改 和 更 新 。 
使 用 汽油 发 动机 的 驾驶 员 尤 其 需要 注意 汽油 的 型 号 一 一 如 果 加 错 了 油 ， 他 们 就 车 上 大 麻烦 
T. 


标准 的 作用 


更 严格 的 排放 标准 是 个 好 玩意 儿 ， 但 驾驶 员 也 需要 考虑 更 多 ， 同 时 更 加 小 心 〈 至 少 对 汽油 
车 来 说 如 此 )。 不 过 坦白 说 ， 新 标准 对 大 多 数 人 没有 什么 影响 ， 因 为 其 他 州 不 会 施行 加 州 的 
标准 。 

所 以 你 知道 ， 四 种 类 型 的 发 动机 其 实 可 以 分 为 三 类 : 两 类 是 汽油 机 ， 一 类 是 电动 机 。 虽 然 
它们 都 是 驱动 车 轮 的 ， 但 你 明白 了 其 中 的 差异 。 你 不 知道 的 是 ， 这 堆 复 杂 的 玩意 与 正则 表 
达 式 有 什么 关系 ! 其 实 这 里 面 的 关系 远 比 你 能 想象 的 要 复杂 。 


注 1: 加 州 对 汽车 尾气 排放 的 限制 非常 严格 。 因 此 ， 美 国 市 场 上 的 不 少 汽车 都 标明 “达到 加 州 标 
准 ” 或 “未 达到 加 州 标准 "。 
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正则 引擎 的 分 类 


Regex Engine Types 


正则 引擎 主要 可 以 分 为 基本 不 同 的 两 大 类 : 一 种 是 DFA (相当 于 之 前 说 的 电动 机 ) ， 另 一 种 
是 NFA (相当 于 前 面 的 汽油 机 )。 我 们 很 快 就 会 知道 DFA 和 NFA 的 具体 含义 ， 但 是 现在 读 
者 只 需要 知道 这 两 个 名 字 ， 就 像 “Bil” 和 “Ted",， “汽油 机 ”和 “电动 机 ”一 样 。 

DFA 和 NFA 都 有 很 长 的 历史 ， 不 过 ， 正 如 汽油 机 一 样 ，NFA 的 历史 更 长 一 些 。 使 用 NFA 
的 工具 包括 .NET、PHP、Ruby、Perl、Python、GNU Emacs, ed, sec, vi, grep 的 多 数 版 本 ， 
甚至 还 有 某 些 版 本 的 egrep 和 awk。 而 采用 DFA 的 工具 主要 有 egrep, awk, lex Fil flex, th 
有 些 系统 采用 了 混合 引擎 ， 它 们 会 根据 任务 的 不 同 选 择 合适 的 引擎 (甚至 对 同一 表达 式 中 
的 不 同 部 分 采用 不 同 的 引擎 ， 以 求 得 功能 与 速度 之 间 的 最 佳 平衡 ) 。 表 4-1 列 出 了 少量 常用 
的 工具 及 其 大 多 数 版 本 使 用 的 引擎 。 如 果 你 最 喜欢 的 工具 没有 名 列 其 中 ， 可 以 参考 下 一 页 
的 “测试 引擎 的 类 型 ”来 找到 答案 。 


表 4-1: 部 分 程序 及 其 所 使 用 的 正则 引擎 





DFA awk (大 多 TA +). egrep (大 多 数 版 本 ) 、 lex: MySQL. gamer 
传统 型 NFA GNU Emacs, Java, grep (大 多 数 版 本 ) , less, more, .NET 语言 . PCRE library, 

Perl, PHP (所 有 三 套 正 则 库 ) Python, Ruby, sed (大 多 数 版 本 ) vi 
POSIX NFA mawk, Mortice Kern Systems’ utilities, GNU Emacs (明确 指定 时 使 用 ) 
DFA/NFA 混合 | GNU awk, GNU grep/egrep, Tcl 


第 3 章 已 经 讲 过 ，NFA 和 DFA 都 发 展 了 二 十 多 年 ,产生 了 许多 不 必要 的 变 体 ， 结 果 ， 现 在 
的 情况 比较 复杂 。POSIX 标准 的 出 台 ， 就 是 为 了 规范 这 种 现象 ，POSIX 标准 不 但 清楚 地 规 
定 了 前 一 章 中 提 到 的 引擎 应 该 支持 的 元 字符 和 特性 ， 还 明确 规定 了 使 用 者 期 望 由 表达 式 获 
得 的 准确 结果 。 除 开 表面 细节 不 谈 ，DFA (也 就 是 电动 机 ) 显然 已 经 符合 新 的 标准 ， 但 是 
NFA 风格 的 结果 却 与 此 不 一 ， 所 以 NFA 需要 修改 才能 符合 标准 。 这 样 一 来 ,正则 引擎 可 以 
粗略 地 分 为 3 类 : 


。 DFA (符合 或 不 符合 POSIX 标准 的 都 属 此 类 )。 
。 ”传统 型 NFA。 


e POSIX NFA, 


这 里 提 到 的 POSIX 是 匹配 意义 上 的 ， 也 就 是 说 ，POSIX 标准 规定 的 某 个 正则 表达 式 的 应 有 
行为 (本 章 稍 后 部 分 将 讨论 ), 而 不 是 指 POSIX 标准 引入 的 匹配 特性 。 许多 程序 支持 这 些 特 
性 ， 但 结果 与 POSIX 规范 不 完全 一 致 。 
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老式 (功能 极 少 的 ) 程序 ， 比 如 egrep, awk, lex 之 类 ， 一 般 都 是 使 用 DFA 引擎 (电动 机 )， 
所 以 ， 新 的 标准 只 是 肯定 了 既 有 的 情况 ， 而 没有 大 的 改变 。 但 是 也 存在 一 些 汽油 机 版 本 的 
此 类 程序 ,如 果 它 们 需要 达到 POSIX 标准 ,就 需要 做 些 修改 。 通 过 了 加 州 排放 标 准 测 试 (POSIX 
NFA) 的 汽油 机 能 够 产生 符合 标准 的 结果 ， 但 是 这 些 必要 的 修改 会 增加 保养 的 难度 。 以 前 ， 
错位 的 火花 塞 也 能 应 付 着 使 用 ， 但 现在 根本 就 点 不 着 火 。 以 前 还 能 “凑合 ”的 汽油 ， 现 在 
会 弄 得 发 动机 环 古 乱 响 。 不 过 ， 一 旦 掌握 其 中 的 门道 ， 发 动机 就 能 平稳 安静 地 运转 了 。 


NARIMA 


From the Department of Redundancy Department 


现在 ， 我 请 读者 回 过 头 去 ， 重 新 思考 关于 引擎 的 故事 。 其 中 的 每 句 话 都 涉及 某 些 与 正则 表 
达 式 相关 的 事实 。 读 第 二 遍 会 引起 许多 思考 。 尤 其 是 , 为 什么 说 电动 机 (DFA 引擎 ) 只 是 “能 
够 运行 "。 什 么 影响 了 汽油 机 (NFA) ? 使 用 NFA 引擎 时 ， 应 该 如 何 调整 才能 获得 期 望 的 结 
R? 通过 (排放 ) 测试 的 POSIX DFA 有 什么 特别 之 处 ? 现实 中 “熄火 的 引擎 ”又 是 什么 ? 


测试 引擎 的 类 型 


Testing the Engine Type 


工具 所 采用 的 引擎 的 类 型 ， 决 定 了 引擎 能 够 支持 的 特性 以 及 这 些 特性 的 用 途 。 所 以 ， 通 常 
情况 下 ， 我 们 只 需要 几 个 测试 用 的 表达 式 ， 就 能 判断 出 程序 所 使 用 的 引擎 类 型 (EE, An 
果 你 不 能 分 辨 引擎 的 类 型 ， 这 种 分 类 就 没有 意义 ) 。 现 在 ， 我 并 不 期 望 读者 理解 下 面 的 这 些 
测试 原理 ,我 只 是 提供 一 些 测试 表达 式 , 即 使 读者 最 喜欢 使 用 的 软件 没有 出 现在 表 4-1 之 内 ， 
也 可 以 判断 出 引擎 的 类 型 ， 继 续 阅 读本 章 的 其 他 内 容 。 


是 否 传统 型 NFA 


传统 型 NFA 是 使 用 最 广泛 的 引擎 ， 而 且 它 很 容易 识别 。 首 先 ， 看 看 忽略 优先 量词 (7141) 
是 否 得 到 支持 ?如 果 是 ， 基 本 就 能 确定 这 是 传统 型 NFA。 我 们 将 要 看 到 ， 忽 略 优先 量词 是 
DFA 不 支持 的 , 在 POSIX NFA 中 也 没有 意义 。 为 了 确认 这 一 点 ， 只 需要 简单 地 用 正则 表达 
式 mftalnfanot1 来 匹配 字符 串 ‘nfa'not', WERA ‘nfa’ MET, 这 就 是 传统 型 NFA, 
如 果 整 个 “nfa not ”都 能 匹配 ， 则 此 引擎 要 么 是 POSIX NFA, BZ DFA, 


if 
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DFA 还 是 POSIX NFA 


某 些 情况 下 ，DFA 与 POSIX NFA 的 区 别 是 很 明显 的 。DFA 不 支持 捕获 型 括号 (capturing 
parentheses) 和 回溯 (backreferences)， 这 一 点 有 助 于 判断 ， 不 过 ， 也 存在 同时 使 用 两 种 引 
擎 的 混合 系统 ， 在 这 种 系统 中 ， 如 果 没 有 使 用 捕获 型 括号 ， 就 会 使 用 DPA, 


echo -XX=========================2=~=====zzz==2==== | egrep 'X(.+)+xX' 


如 果 执 行 需 要 花 很 长 时 间 ， 就 是 NFA (如 果 上 一 项 测试 显示 这 不 是 传统 型 NFA， 那 么 它 肯 
Æi POSIX NFA)。 如 果 时 间 很 短 ， 就 是 DEFA， 或 者 是 支持 某 些 高 级 优化 的 NFA。 如 果 显 
示 堆 栈 超 溢 (stack overflow)， 或 者 超时 退出 ， 那 么 它 是 NFA 引擎 。 


匹配 的 基础 


Match Basics 


在 了 解 不 同 引 擎 的 差异 之 前 ， 我 们 先 看 看 它们 的 相似 之 处 。 汽 车 的 各 种 动力 系统 在 某 些 方 
面 是 一 样 的 (或 者 说 ， 从 实用 的 角度 考虑 ， 它 们 是 一 样 的 )， 所 以 ， 下 面 的 范例 也 能 够 适用 
于 所 有 的 引擎 。 


关于 范例 


About the Examples 


本 章 关 注 的 是 一 般 的 提供 所 有 功能 的 正则 引擎 ， 所 以 ， 某 些 程序 并 不 能 完全 支持 它们 。 在 
本 书 所 说 的 汽车 里 ， 机 油 油 尺 (dipstick) 可 能 挨 在 机 油 滤 清 器 (oil filter) 的 左边 ， 而 在 读 
者 那里 , 它 却 装 在 分 电 盘 盖 (distributor cap) 的 后 面 。 不 过 , 读者 要 做 的 只 是 理解 这 些 概念 ， 
能 够 使 用 和 维护 自己 最 喜欢 〈 以 及 他 们 最 感 兴趣 ) 的 正则 表达 式 包 。 


在 大 部 分 例子 中 , 我 仍然 使 用 Perl 表示 法 ， 虽 然 我 偶尔 会 用 一 些 其 他 的 表示 法 来 提醒 读者 ， 
表示 法 并 不 重要 ， 我 们 讨论 的 问题 与 程序 和 表示 法 不 属于 一 个 层次 。 为 节省 篇 幅 ， 如 果 读 
者 遇 到 不 熟悉 的 构建 方式 ， 请 查阅 第 3 章 (7114), 


本 章 详细 阐释 了 匹配 执行 的 实际 流程 。 理 想 的 情况 是 ， 所 有 的 知识 都 能 归纳 为 几 条 容易 记 
忆 的 简单 规则 ， 使 用 者 不 需要 了 解 这 些 规则 包含 的 原理 。 很 不 幸 ， 事 实 并 非 如 此 。 整 个 第 4 
章 只 能 列 出 两 条 普 适 的 原则 : 


1. 优先 选择 最 左 端 (最 靠 开 头 ) 的 匹配 结果 。 
2. 标准 的 匹配 量词 (o, o Rmn) 是 匹配 优先 的 。 


在 本 章 中 ， 我 们 将 考察 这 些 规则 ， 它 们 的 结果 ， 以 及 其 他 许多 内 容 。 首 先 我 们 详细 讨论 第 
一 条 规则 。 


iti 


www.TopSage.com 


148 第 4 章 : 表达 式 的 匹配 原理 


规则 1: 优先 选择 最 左 端的 匹配 结果 


Rule 1: The Match That Begins Earliest Wins 


根据 这 条 规则 ， 起 始 位 置 最 靠 左 的 匹配 结果 总 是 优先 于 其 他 可 能 的 匹配 结果 。 这 条 规则 并 
没有 规定 优先 的 匹配 结果 的 长 度 ( 稍 后 将 会 讨论 ), 而 只 是 规定 , 在 所 有 可 能 的 匹配 结果 中 ， 
优先 选择 开始 位 置 最 左 端的 。 实 际 上 ， 因 为 可 能 有 多 个 匹配 结果 的 起 始 位 置 都 在 最 左 端 ， 
也 许 我 们 应 该 把 这 条 规则 中 的 “ 某 个 匹配 结果 (a match)” 改 为 “该 匹配 结果 (the match)”, 
不 过 这 上 听 起 来 有 些 别扭 。 


这 条 规则 的 由 来 是 : 匹配 先 从 需要 查找 的 字符 串 的 起 始 位 置 尝试 匹配 。 在 这 里 ,“ 尝 试 匹配 

(attempt)” 的 意思 是 ,在 当前 位 置 测试 整个 正则 表达 式 〈 可 能 很 复杂 ) 能 匹配 的 每 样 文本 。 
如 果 在 当前 位 置 测试 了 所 有 的 可 能 之 后 不 能 找到 匹配 结果 ， 就 需要 从 字符 串 的 第 二 个 字符 
之 前 的 位 置 开 始 重新 尝试 。 在 找到 匹配 结果 以 前 必须 在 所 有 的 位 置 重复 此 过 程 。 只 有 在 尝 
试 过 所 有 的 起 始 位 置 (直到 字符 串 的 最 后 一 个 字符 ) 都 不 能 找到 匹配 结果 的 情况 下 ， 才 会 
报告 “匹配 失败 ”。 


所 以 , 如 果 要 用 'ORA, 来 匹配 FLORAL ， 从 字符 串 左边 开始 第 一 轮 尝 试 会 失败 (因为 'oRA 不 
能 匹配 FLO) ， 第 二 轮 尝试 也 会 失败 (‘ora 同样 不 能 匹配 LOR) ， 从 第 三 个 字符 开始 的 尝试 
能 够 成 功 ， 所 以 引擎 会 停 下 来 ， 报 告 匹 配 结果 FLORAL, 
如 果 不 了 解 这 条 规则 ， 有 时 候 就 不 能 理解 匹配 的 结果 。 例 如 ， 用 "cat 来 匹配 : 

The dragging belly indicates that your cat is too fat. 
结果 是 indicates， 而 不 是 后 来 出 现 的 cat, Pia) cat 是 能 够 被 匹配 的 ， 但 indicates 中 
的 cat 出 现 的 更 早 ， 所 以 得 到 匹配 的 是 它 。 对 于 egrep 之 类 的 程序 来 说 ,这 种 差别 是 无 关 紧 
要 的 ， 因 为 它 只 关心 “是 否 ” 能 够 匹配 ， 而 不 是 “在 哪里 ”匹配 。 但 如 果 是 进行 其 他 的 应 
用 ， 例 如 查找 和 替换 ， 这 种 差别 就 很 重要 了 ，。 
这 里 有 一 个 小 测验 (应 该 不 困难 ): 如 果 用 fatlcatlbellylyouri 来 匹配 字符 串 “The 
dragging belly indicates that your cat is too fat.’, 结果 是 什么 昵 ? 请 看 下 
一 页 。 


"传动 装置 (transmission) ”和 驱动 过 程 (bump-along) 


或 许 汽车 变速 箱 (译注 1) 的 例子 有 助 于 理解 这 条 规则 ， 驾 驶 员 在 换 档 时 ， 变 速 箱 负责 连接 
引擎 和 动力 系统 。 引 擎 是 真正 产生 动力 的 地 方 ( 它 驱 动 曲轴 ), 而 变速 箱 把 动力 传送 到 车 轮 。 


译注 1: 此 处 的 “ 变 速 箱 ” 就 是 上 文中 的 “传动 装置 ”， 为 了 保持 译文 通畅 ， 在 涉及 汽车 时 译 为 
“变速 和 町 ， 在 涉及 正则 表达 式 时 译 为 “传动 装置 "。 
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传动 装置 的 主要 功能 : 驱动 


如 果 引 擎 不 能 在 字符 串 开 始 的 位 置 找到 匹配 的 结果 ， 传 动 装置 就 会 推动 引擎 ， 从 字符 串 的 
一 个 位 置 开 始 尝试 ， 然 后 是 下 一 个 ， 再 下 一 个 ， 如 此 继续 。 不 过 ， 如 果 某 个 正则 表达 式 
是 以 “字符 串 起 始 位 置 锚 点 (start-of-string anchor)” 开 头 的 ， 传 动 装置 就 会 知道 ， 不 需要 
更 多 的 尝试 ， 因 为 如 果 能 够 匹配 ， 结 果 肯 定 是 从 字符 串 的 头 部 开始 的 。 在 第 6 章 中 ， 我 们 
会 讲解 这 一 点 ， 以 及 更 多 的 内 部 优化 措施 。 


引擎 的 构造 


Engine Pieces and Parts 


所 有 的 引擎 都 是 由 不 同 的 零 部 件 组 合 而 成 的 。 如 果 对 这 些 零件 缺乏 了 解 ， 也 就 不 可 能 真正 
理解 引擎 的 工作 原理 。 正 则 引擎 中 的 这 些 零 件 分 为 几 类 一 一 文字 字符 (literal characters), 
量词 (qualifiers)、 字 符 组 (character classes) 、 括 号 ， 等 等 ， 我 们 在 第 3 章 介 绍 过 (7114), 
这 些 和 零件 的 组 合 方式 (以 及 正则 引 敬 对 它们 的 处 理 方式 ) 决定 了 引擎 的 特性 ， 所 以 ， 这 些 
零件 的 组 合 方式 ， 以 及 它们 之 间 的 配合 ， 是 我 们 主要 关注 的 东西 。 首 先 ， 让 我 们 来 看 看 这 
些 零件 : 


文字 文本 (Literal Text) 例如 a、\*、!、 枝 … 


对 于 非 元 字符 的 文字 字符 ， 尝 试 匹配 时 需要 考虑 就 是 “这 个 字符 与 当前 尝试 的 字符 相 
同 吗 ?“。 如 果 一 个 正则 表达 式 只 包含 纯 文本 字符 ， 例 如 usaj， 那 么 正则 引擎 会 将 其 
WA: 一 个 u, 接着 一 个 sj, 接着 一 个 ai。 进行 不 区 分 大 小 写 的 匹配 时 的 情况 要 复杂 
一 点 ， 因 为 bi 能 够 匹配 B， 而 'B 也 能 匹配 b， 不 过 这 仍然 不 难 理解 (Unicode 的 情况 
稍微 复杂 一 些 110)。 


字符 组 、 点 号 、Unicode 属性 及 其 他 


通常 情况 下 ,字符 组 、 点 号 、Unicode 属性 及 其 他 的 匹配 是 比较 简单 的 : 无 论 字符 组 的 
长 度 是 多 少 ， 它 都 只 能 匹配 一 个 字符 ( 注 2)。 


点 号 可 以 很 方便 地 表示 复杂 的 字符 组 ， 它 几乎 能 匹配 所 有 字符 ， 所 以 它 的 作用 也 很 简 
单 ， 其 他 的 简便 方式 还 包括 \w, WWA Ade 


捕获 型 括号 
用 于 捕获 文本 的 括号 (而 不 是 用 于 分 组 的 括号 ) 不 会 影响 匹配 的 过 程 。 
注 2: KK, 正如 我 们 在 前 一 章 看 到 的 《 宁 128) ，POSIX 的 collating 序列 能 够 匹配 多 个 字符 ， 但 


这 并 不 常见 。 同 样 ， 在 进行 不 区 分 大 小 写 的 匹配 时 ， 某 些 Unicode 字符 可 以 匹配 多 个 字条 
(110)， 尽 管 大 多 数 实现 并 不 支持 此 功能 。 
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测验 答案 


> 148 页 测验 的 答案 
请 记 住 , 正则 表达 式 的 每 一 次 尝试 都 要 进行 到 底 , 所 以 'fat1cat1belly|your) MAL 


配 “The dragging belly indicates your cat is too fat’ #4 RAA fat, X 
€ fats 在 所 有 可 能 选项 中 列 在 最 前 头 。 

当然 ， 正 则 表达 式 应 该 也 能 够 匹配 fat 和 其 他 可 能 ， 但 它们 都 不 是 最 洁 出 现 的 匹配 结 
X ( 除 现在 最 左边 的 结果 ) ， 所 以 不 会 被 选择 。 在 进行 下 一 轮 堂 试 之 前 ， 正 则 表达 式 的 
所 有 可 能 都 会 尝试 , 也 就 是 说 , 在 移动 之 前 ,'fati、 ‘cats, ‘belly Fe your 都 必须 尝试 。 





锚 点 (e.g., fa, Az] '(2?<=\d))°**) 


锁 点 可 以 分 为 两 大 类 : 简单 销 点 (CO. S.AG \b, 7129) 和 复杂 销 点 (例如 顺序 环视 
和 逆序 环视 133)。 简 单 锚 点 之 所 以 得 名 ， 就 在 于 它们 只 是 检查 目标 字符 串 中 的 特定 
位 置 的 情况 (~^、\z..), 或 者 是 比较 两 个 相 邻 的 字符 (\<、\b、.…)。 相 反 , BARRA CH 
视 ) 能 包含 任意 复杂 的 子 表达 式 ， 所 以 它们 也 可 以 任意 复杂 。 


非 “电动 ”的 括号 、 反 向 引用 和 忽略 优先 量词 


虽然 本 章 希 望 讲解 的 是 引擎 之 间 的 相似 之 处 ， 但 为 了 方便 读者 理解 本 章 余下 的 内 容 ， 这 里 
必须 指出 一 些 有 意义 的 差异 。 捕 获 括号 (以 及 相应 的 反 向 引用 和 $1 表示 法 ) 就 像 汽 油 添加 
剂 一 样 一 一 它们 只 对 汽油 机 (NFA) 起 作用 ， 对 电动 机 (DFA) 不 起 作用 。 忽 略 优先 量词 也 
是 如 此 。 这 种 情况 是 由 DFA 的 工作 原理 决定 的 (TE 3)。 这 解释 了， 为 什么 DFA 引擎 不 支 
持 这些 特 性 。 读 者 会 看 到 ，awk、iex 和 egrep 都 不 支持 反 向 引用 和 $1 功能 (表示 法 )。 


也 许 读者 会 注意 到 ，GNU 版 本 的 egrep 确实 支持 反 向 引用 。 这 是 因为 它 包 含 了 两 台 不 同 的 
引擎 。 它 首先 使 用 DFA 查找 可 能 的 匹配 结果 ， 再 用 NFA (支持 包括 反 向 引用 在 内 的 所 有 特 
性 ) 来 确认 这 些 结果 。 接 下 来 ， 我 们 将 看 到 DFA 不 能 支持 反 向 引用 及 捕获 括号 的 原因 ， 以 
及 这 种 引擎 能 够 存在 的 理由 (DFA 有 很 多 显著 的 优势 ， 例 如 匹配 速度 非常 快 )。 


注 3: 这 并 非 是 说 ， 我 们 不 能 粳 合 两 种 引擎 的 长 处 以 求 最 佳 。 请 参考 第 182 页 的 补充 内 容 。 
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规则 2: 标准 量词 是 匹配 优先 的 


Rule 2: The Standard Quantifiers Are Greedy 





BA AL, PABBA EE BIE BM. AMR ELI BS —_ sem SA RLS, 
就 需要 使 用 星 号 、 加 号 、 多 选 结构 之 类 功能 更 强大 的 元 字符 。 要 彻底 理解 这 些 功能 ， 需 要 
学 习 更 多 的 知识 。 


读者 首先 需要 记 住 的 是 , 标准 匹配 量词 (?、*、+, 以 及 {min, max) 都 是 “匹配 优先 (greedy)” 
的 。 如 果 用 这 些 量词 来 约束 某 个 表达 式 , Plan (expr) *, 中 的 '(expr)1、'a?; 中 的 'ay 和 '[0-9] + 
中 的 [0-9],， 在 匹配 成 功 之 前 ， 进 行 尝试 的 次 数 是 存在 上 限 和 下 限 的。 在 前 面 的 章节 中 我 
们 已 经 提 到 过 这 一 点 一 一 而 规则 2 表明 ， 这 些 尝试 总 是 希望 获得 最 长 的 匹配 (一些 工具 提 
供 了 其 他 的 匹配 量词 ， 但 是 本 节 只 讨论 标准 的 匹配 优先 量词 )。 


简 而 言 之 ， 标 准 匹 配 量 词 的 结果 “可 能 ”并 非 所 有 可 能 中 最 长 的 ， 但 它们 总 是 尝试 匹配 尽 
可 能 多 的 字符 ， 直 到 匹配 上 限 为 止 。 如 果 最 终结 果 并 非 该 表达 式 的 所 有 可 能 中 最 长 的 ， 原 
因 表 定 是 匹配 字符 过 多 导致 匹配 失败 。 举 个 简单 的 例子 : 用 "b\w+s\bj 来 匹配 包含 “s' 的 
FAR, 比如 说 “regexes',"\w+, 完 全 能 够 匹配 整个 单词 , 但 如 果 用 w+, 来 匹配 整个 单词 ， 
‘sy 就 无 法 匹配 了 。 为 了 完成 匹配 , \w 必须 匹配 “regexes”， 把 最 后 的 's\bj 留 出 来 。 


如 果 表 达 式 的 其 他 部 分 能 够 成 功 匹配 的 唯一 条 件 是 ， 匹 配 优先 的 结构 不 匹配 任何 字符 ， 在 
容许 零 匹 配 (译注 2) 的 情况 下 〈 例 如 使 用 星 号 、 问 号 ， 或 者 {0, max} ， 这 是 没有 问题 的 。 
不 过 ， 这 种 情况 只 有 在 表达 式 的 后 续 部 分 强迫 下 才能 发 生 。 匹 配 优先 量词 之 所 以 得 名 ， 是 
因为 它们 总 是 (或 者 ， 至 少 是 尝试 ) 匹配 多 于 匹配 成 功 下 限 的 字符 。 


匹配 优先 的 性 质 可 以 非常 有 用 (有 了 时候 也 非常 讨厌 )。 它 可 以 用 来 解释 '[0-9] + 为 什么 能 匹 
Ac March*1998 中 的 所 有 数字 。1 匹配 之 后 ， 实 际 上 已 经 满足 了 成 功 的 下 限 ， 但 此 正则 表达 
式 是 匹配 优先 的 ， 所 以 它 不 会 停 在 此 处 ， 而 会 继续 下 去 ， 继 续 匹 配 “998" ， 直 到 这 个 字符 
串 的 末尾 (因为 '[0-9]1 不 能 匹配 字符 捉 最 后 的 空 档 ， 所 以 会 停 下 来 )。 


邮件 主题 


显然 , 这 种 匹配 方式 并 非 只 能 用 于 匹配 数字 。 举例 来 说 , 如 果 我 们 需要 判断 E-mail 的 header 
中 的 某 行 字符 是 否 标题 行 (subject line)。 前 面 (755) RIEZ, TLAM subject: 
来 实现 。 不 过 ， 如 果 使 用 '^subject :"( .*),， 我 们 就 能 在 之 后 的 程序 中 使 用 捕获 型 括号 来 
访问 主题 的 内 容 (例如 Perl 中 的 $1) (译注 3)。 


译注 2: zero match， 即 不 匹配 任何 字符 也 能 成 功 的 匹配 。 
译注 3: 这 个 例子 用 捕获 型 括号 来 讲解 匹配 优先 ， 所 以 它 只 适用 于 NFA (只 有 NFA 支持 捕获 型 
括号 ) 。 不 过 ， 匹 配 优先 的 特性 对 所 有 引擎 都 是 一 样 的 ， 包 括 不 支持 捕获 的 DFA。 
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在 探讨 “匹配 邮件 主题 之 前 ， 请 读者 记 住 ， 一 旦 “subject: 能够 部 分 匹配 ， 整 个 正则 
表达 式 就 一 定 能 够 全 部 匹配 。 因 为 “subject : ,之 后 没有 字符 会 导致 表达 式 匹 配 失败 : !. *， 
水 远 不 会 失败 ， 因 为 “不 匹配 任何 字符 ”也 是 '.*, 的 可 能 结果 之 一 。 


那么 ， 为 什么 要 添加 U? 这 是 因为 我 们 知道 ， 星 号 是 匹配 优先 的 ， 它 会 用 点 号 匹配 尽 
可 能 多 的 字符 ， 所 以 我 们 用 它 来 “填充 ”$1。 事 实 上 ， 括 号 并 没有 影响 正则 表达 式 的 匹配 
过 程 ， 在 本 例 中 ， 我 们 只 是 用 它们 来 包括 '.*| 匹配 的 字符 。 


“…* 到达 字符 捉 的 末尾 之 后 点 号 不 能 继续 匹配 ， 所 以 星 号 最 终 停 下 来 ， 尝 试 匹 配 表达 式 中 
的 下 一 个 元 素 (尽管 .*, 无 法 继续 匹配 了 ， 但 下 面 的 子 表达 式 或 许 能 够 继续 匹配 ) 。 不 过 ， 
因为 本 例 中 不 存在 后 面 的 元 素 ， 到 达 表 达 式 的 未 尾 之 后 ， 我 们 就 获得 了 成 功 的 匹配 结果 。 


过 度 的 匹配 优先 


现在 让 我 们 回 过 头 去 看 “ 尽 可 能 匹配 ”的 匹配 优先 量词 。 如 果 我 们 在 上 面 的 例子 中 增加 一 
A't, 把 正则 表达 式 写 作 “subject:(.*) .si， 结 果 会 是 如 何 呢 ? 答案 是 ,没有 变化 。 开 
头 的 .* (括号 中 的 ) 会 霸占 整个 标题 的 文本 , 而 不 给 第 二 个 和 .*, 留 下 任何 字符 。 而 第 二 个 
《的 匹配 失败 并 不 要 紧 , 因为 '.*, 不 匹配 任何 字符 也 能 成 功 。 如 果 我 们 给 第 二 个 和.* 也 加 
上 括号 ，$2 将 会 是 空白 。 


这 是 否 说 明 ， 在 正则 表达 式 中 ，. 国 的 部 分 没有 机 会 匹配 任何 字符 呢 ? 答案 显然 是 否定 的 。 
就 像 我 们 在 \w+s; 这 个 例子 中 看 到 的 ， 如 果 进 行 全 部 匹配 必须 这 样 做 ， 表 达 式 中 的 某 些 部 
分 可 能 “强迫 ”之 前 匹配 优先 的 部 分 “释放 ” (或 者 说 “交还 (unmatch)”) 某 些 字 符 。 


“.*([0-9] [0-9]))1 或 许 是 个 有 用 的 正则 表达 式 ， 它 能 够 匹配 一 行 字符 的 最 后 两 位 数字 ， 
如 果 有 的 话 ， 然 后 将 它们 存储 在 $1 中 。 下 面 是 匹配 的 过 程 : '.*, 首 先 匹配 整 行 ， 而 “10-9] 
[0-9]1 是 必须 匹配 的 ， 在 尝试 匹配 行 末 的 时 候 会 失败 ， 这 样 它 会 通知 .*,:“ 蜂 ， 你 占 的 太 
ET, 交 出 一 些 字符 来 吧 , 这 样 我 没准 能 匹配 。” 匹 配 优 先 组 件 首先 会 匹配 尽 可 能 多 的 字符 ， 
但 为 了 整个 表达 式 的 匹配 ， 它 们 通常 需要 “释放 ”一 些 字符 (抑制 自己 的 天 性 )。 当 然 ， 它 
们 并 不 “愿意 ”这 样 做 ， 只 是 不 得 已 而 为 之 。 当 然 ,“ 交 还 ” 绝 不 能 破坏 匹配 成 立 必须 的 条 
件 ， 比 如 加 号 的 第 一 次 匹配 。 


ti 
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明白 了 这 一 点 , 我 们 来 看 全 .*([0-9] (0-9])) PERG ‘about-24-characters-long’ 的 过 程 。 
-匹配 整个 字符 串 以 后 , 第 一 个 '10-91, 的 匹配 要 求 '.* 释放 一 个 字符 o (最 后 的 字符 )。 
但 是 这 并 不 能 让 ' (0-9), DER, 所 以 …* 必须 继续 “交还 ”字符 , 接 下 来 交还 的 字符 是 n 。 
如 此 循环 15 tk, 直到 .*, 最 终 释 放 ‘4’ 为 止 。 

不 幸 的 是 ， 即 使 第 一 个 '[0-9], 能 够 匹配 “4'， 第 二 个 (0-9), 仍然 不 能 匹配 。 为 了 匹配 整 


个 正则 表达 式 ,“.*| 必须 再 次 释放 一 个 字符 , 这 次 是 “2', 由 第 一 个 '[0-9] 匹配。 现在 ,4" 
能 够 由 第 二 个 '[0-9] 1 匹配, 所 以 整个 表达 式 匹配 的 是 “about*24:char…", $1 的 值 是 "24 。 





先 来 先 服务 


如 果 用 “.*[0-9]+! 来 匹配 一 行 的 最 后 两 个 数字 , 期 望 匹配 的 不 止 是 最 后 两 位 数字 , 而 是 最 
后 的 整个 数 ， 结 果 会 是 多 长 呢 ? 如 果 用 它 来 匹配 “copyright 2003. ， 结 果 是 什么 ? OF 
案 在 下 一 页 。 


深入 细节 


在 这 里 必须 澄清 一 些 东 西 。 因 为 “.*, 必 须 交 还 …” 或 者 “[0-9], 迫 使 … ”之 类 的 说 法 或 
许 容易 引起 混 消 。 我 使 用 这 些 说 法 是 因为 它们 易于 理解 ， 而 且 跟 实际 的 结果 一 致 。 不 过 ， 
事情 的 真相 是 由 基本 的 引擎 类 型 决定 一 一 是 DFA， 还 是 NFA。 现 在 我 们 就 来 看 这 些 。 


表达 式 主导 与 文本 主导 


Regex-Directed Versus Text-Directed 


DFA 和 NFA 反映 了 将 正则 表达 式 在 应 用 算法 上 的 根本 差异 。 我 把 对 应 汽油 机 的 NFA 称 为 
“表达 式 主 导 (regex-directed) ”引擎 , 而 对 应 电动 机 的 DFA 称 为 “文本 主导 (text-directed )” 
引擎 。 


NFA 引擎 , 表达 式 主导 


NFA Engine: Regex-Directed 


我 们 来 看 用 ‘to (nitelknight |Inight), PLACA ‘tonight 的 一 种 办 法 。 正 则 表达 式 
Mic FPR, 每 次 检查 一 部 分 (由 引擎 查看 表达 式 的 一 部 分 )， 同 时 检查 “当前 文本 〈current 
text)” 是 否 匹 配 表达 式 的 当前 部 分 。 如 果 是 ， 则 继续 表达 式 的 下 一 部 分 ， 如 此 继续 ， 直 到 
表达 式 的 所 有 部 分 都 能 匹配 ， 即 整个 表达 式 能 够 匹配 成 功 。 
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测验 答案 


令 153 页 测验 的 答案 

用 '*.*([0-9]+)) 匹配 ‘copyright 2003.’, MFRRRAH 2A? 

这 个 表达 式 的 本 意 是 捕获 整个 数字 2003， 但 结果 并 非 如 此 。 之 前 已 经 说 过 ， 为 了 满足 
[0-9]+) 的 匹配 ，. 岂 必须 交还 一 些 字符。 在 这 个 例子 中 ， 释 放 的 字符 是 最 后 的 “3， 
和 上 点 号 ， 之 后 “3” 能 够 由 '[0-9]， 匹配 。'[0-9]1 由 和 + 量词 修饰 ， 所 以 现在 还 只 做 到 
了 最 小 的 匹配 可 能 ， 现 在 它 遇 到 了 “.'， 找 不 到 其 他 可 以 匹配 的 字符 。 

与 之 前 不 同 , 此 时 没有 “必须 ”匹配 的 元 素 ,所 以 '.* 不 会 被 连 交 出 0。 SH, 100-91+， 
应 当心 存 感激 ， 接 受 匹 配 优 先 元 素 的 馈赠 ， 但 请 记 住 “ 先 来 先 服务 ”原则 。 匹 配 优先 
的 结构 只 会 在 被 连 的 情况 下 交还 字符 。 所 以 ， 最 终 $1 的 值 是 “3 7。 

如 果 读 者 觉得 难以 理解 ,不 妨 这 样 想 ，[0-9]+) 和 和 [0-9]* 差 不 多 ,而 本 例 中 和 [0-9]*， 
和 .* 是 一 样 的 。 用 它 来 普 换 原来 的 表达 式 丰 .*([0-9]+) 1， 我 们 得 到 中.*(.*)1， 这 
与 152 页 的 ^Subject:*(.*) .四 很 相似 ， 第 二 个 '.* 不 会 匹配 任何 字符 。 





Æ 'to(nitelknight lnight) ,的 例子 中 ， 第 一 个 元 素 是 't,， 它 将 会 重复 尝试 ， 直 到 在 目标 
字符 串 中 找到 “t+ ”为止 。 之后， 就 检查 紧 随 其 后 的 字符 是 否 能 由 'o 匹配 ， 如 果 能 ， 就 检 
查 下 面 的 元 素 , 在 本 例 中 ,“ 下 面 的 元 素 ” 指 ' (nitelknight inight),; EAVES VE “nice 
或 者 knight) 或 者 night”。 引 擎 会 依次 尝试 这 3 种 可 能 。 我 们 (具有 高 级 神经 网 络 的 人 
K) 能 够 发 现 ， 如 果 待 匹配 的 字符 串 是 tonight ， 第 三 个 选择 能 够 匹配 。 不 论 神经 学 起 源 
(785) 如 何 ， 表 达 式 主导 的 引擎 必须 完全 测试 ， 才 能 得 出 结论 。 


尝试 nite 的 过 程 与 之 前 一 样 : “尝试 匹配 mJ, 然后 是 ,然后 是 ri， 最 后 是 'e/。” 如 果 这 
种 尝试 失败 一 一 就 像 本 例 ， 引 敬 会 尝试 另 一 种 可 能 ， 如 此 继续 下 去 ， 直 到 匹配 成 功 或 是 报 
告 失败 。 表 达 式 中 的 控制 权 在 不 同 的 元 素 之 间 转 换 ， 所 以 我 称 它 为 “表达 式 主导 "。 
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NFA 引擎 在 操作 上 的 优点 


实质 上 ， 在 表达 式 主导 的 匹配 过 程 中 ， 每 一 个 子 表达 式 都 是 独立 的 。 这 不 同 于 反 向 引用 ， 
子 表达 式 之 间 不 存在 内 在 联系 ， 而 只 是 整个 正则 表达 式 的 各 个 部 分 。 在 子 表达 式 与 正则 表 
达 式 的 控制 结构 (多 选 分 支 、 括 号 以 及 匹配 量词 ) 的 层级 关系 (layout) 控制 了 整个 匹配 过 
程 。 


因为 NFA 引擎 是 正则 表达 式 主导 的 ， 驾 驶 员 (也 就 是 编写 表达 式 的 人 ) 有 充足 的 机 会 来 实 
现 他 /她 期 望 的 结果 (第 5 章 和 第 6 章 将 会 告诉 读者 ， 如 何 正确 高 效 地 实现 目标 )。 现 在 看 
起 来 ， 这 点 还 有 些 模糊 ， 但 过 一 段 就 会 变 清晰 。 


DFA 引擎 : 文本 主导 


DFA Engine: Text-Directed 


与 表达 式 主导 的 NFA 不 同 ，DFA 引擎 在 扫描 字符 串 时 ,会 记录 “当前 有 效 (currently in the 
works)” 的 所 有 匹配 可 能 。 具 体 到 tonight 的 例子 ， 引 擎 移动 到 t 时 ， 它 会 在 当前 处 理 的 
匹配 可 能 中 添加 一 个 潜在 的 可 能 : 


NR ee FF 
j « ve pet + 
es a 


after…toni ht TRHERLE. botni ‘Celkaightini rosy 





有 效 的 可 能 匹配 变 为 两 个 (knight 被 淘汰 出 局 ) 。 扫 描 到 gs 时 ， 就 只 剩 下 一 个 可 能 匹配 了 。 
当 h 和 * 匹配 完成 后 ， 引 擎 发 现 匹 配 已 经 完成 ， 报 告 成 功 。 


我 称 这 种 方式 为 “文本 主导 ”， 是 因为 它 扫 描 的 字符 串 中 的 每 个 字符 都 对 引擎 进行 了 控制 。 

在 本 例 中 ， 某 个 未 完成 的 匹配 也 许 是 任意 多 个 (只 要 可 行 ) 匹配 的 开始 。 不 合适 的 匹配 可 
能 在 扫描 后 继 文字 时 会 被 去 除 。 在 某 些 情况 下 , “处理 中 的 未 终结 匹配 (partial match in 
progress)” 可 能 就 是 一 个 完整 的 匹配 。 例 如 正则 表达 式 “to(…) ?,， 括 号 内 的 部 分 并 不 是 必 
须 出 现 的 ， 但 考虑 到 匹配 优先 的 性 质 ， 引 擎 仍然 会 尝试 匹配 括号 内 的 部 分 。 匹 配 过 程 中 ， 

在 尝试 括号 内 的 部 分 了 时， 完整 匹配 (‘to’) 已 经 保留 下 来 ， 以 应 付 括号 中 的 内 容 无 法 匹配 
的 情况 。 
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如 果 引 警 发 现 ， 文 本 中 出 现 的 某 个 字符 会 令 所 有 处 理 中 的 匹配 可 能 失效 ， 就 会 返回 某 个 之 
前 保留 的 完整 匹配 。 如 果 不 存 在 这 样 的 完整 匹配 ， 则 要 报告 在 当前 位 置 无 法 匹配 。 


第 一 想法 : 比较 NFA 5 DFA 


First Thoughts: NFA and DFA in Comparison 


如 果 读 者 根据 上 面 介绍 的 知识 比较 NFA 和 DFA， 可 能 会 得 出 结论 : 一 般 情 况 下 ， 文 本 主导 
的 DFA 引擎 要 快 一 些 。 正则 表达 式 主 导 的 NFA 引擎 , 因为 需要 对 同样 的 文本 尝试 不 同 的 子 
表达 式 匹 配 ， 可 能 会 浪费 时 间 (就 好 像 上 面 例子 中 的 3 个 分 支 ) 。 


这 个 结论 是 对 的 。 在 NFA 的 匹配 过 程 中 ， 目 标 文 本 中 的 某 个 字符 可 能 会 被 正则 表达 式 中 的 
不 同 部 分 重复 检测 (甚至 有 可 能 被 同一 部 分 反复 检测 )。 即 使 某 个 字 表 达 式 能 够 匹配 ， 为 了 
检查 表达 式 中 剩 下 的 部 分 ， 找 到 匹配 ， 它 也 可 能 需要 再 一 次 应 用 (甚至 可 能 反复 多 次 )。 单 
独 的 子 表达 式 可 能 匹配 成 功 ， 也 可 能 失败 ， 但是， 直到 抵达 正则 表达 式 的 末尾 之 前 ， 我 们 
都 无 法 确 知 全 局 匹配 成 功 与 否 (也 就 是 说 “不 到 最 后 关头 不 能 分 胜 负 (It's not over until the fat 
lady sings)”, 但 这 句 话 又 不 符合 本 段 的 语 境 )。 相反, DFA 引擎 则 是 确定 型 的 (deterministic) 
一 一 目标 文本 中 的 每 个 字符 只 会 检查 (最多) 一 遍 。 对 于 一 个 已 经 匹配 的 字符 ， 你 无 法 义 
道 它 是 否 属于 最 终 匹 配 〈 它 可 能 属于 最 终 会 失败 的 匹配 ) ， 但 因为 引擎 同时 记录 了 所 有 可 能 
的 匹配 ， 这 个 字符 只 需要 检测 一 次 ， 如 此 而 已 。 


正则 表达 式 引 擎 所 使 用 的 两 种 基本 技术 , 都 对 应 有 正式 的 名 字 : 非 确定 型 有 穷 自 动机 (NFA) 
和 确定 型 有 穷 自 动机 (DFA)。 这 两 个 名 字 实 在 是 太 饶 舌 ， 所 以 我 坚持 只 用 DFA 和 NFA, 
下 文中 不 会 出 现 它们 的 全 称 了 ( 注 4)。 


用 户 需 要 面 对 的 结果 


因为 NFA 具有 表达 式 主 导 的 特性 ， 引 擎 的 匹配 原理 就 非常 重要 。 我 已 经 说 过 ， 通 过 改变 表 
达 式 的 编写 方式 ， 用 户 可 以 对 表达 式 进行 多 方面 的 控制 。 拿 tonight 的 例子 来 说 ， 如 果 改 
变 表 达 式 的 编写 方式 ， 可 能 会 节省 很 多 工夫 ， 比 如 下 面 这 3 种 方式 : 

® itolni(ghtilte) |knight)) 

9 Honicel toknight | 上 tonightl 


a Ito(k?night Inite}; 


24: 我 倒是 希望 能 讲解 这 两 个 名 字形 后 的 理论 ， 可 惜 我 不 知道 该 如 何 做 。 我 已 经 暗示,“ 确 定 
型 ”这 个 名 词 是 很 重要 的 ， 但 是 ， 我 们 只 需要 懂得 实际 的 将 果 ， 而 这 宕 理论 的 大 部 分 内 容 
与 本 书 无 关 。 读 完 本 章 ， 你 会 发 现 事实 就 是 如 此 。 
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给 出 任意 文本 ， 这 3 个 表达 式 都 可 以 捕获 相同 的 结果 ， 但 是 它们 以 不 同 的 方式 控制 引擎 。 
现在 ， 我 们 还 无 法 分 辨 这 3 者 的 优 劣 ， 不 过 接 下 来 会 看 到 。 


DFA 的 情况 相反 一 一 引擎 会 同时 记录 所 有 的 匹配 选择 ， 因 为 这 3 个 表达 式 最 终 能 够 捕获 的 
文本 相同 ， 在 写法 上 的 差异 并 无 意义 。 取 得 一 个 结果 可 能 有 上 百 种 途径 ， 但 因为 DFA 能 够 
同时 记录 它们 (有 点 神奇 ， 待 稍 后 详 述 )， 选 择 哪 一 个 表达 式 并 无 区 别 。 对 纯粹 的 DFA 来 
说 ， 即 使 abc, 和 ”[aa-al (blb{1}1b)ci 看 来 相差 巨大 ， 但 其 实 是 一 样 的 。 


如 果 要 描述 DFA ， 我 能 想到 的 特征 有 : 
*。 DFA 匹配 很 迅速 。 

。 DFA 匹配 很 一 致 。 

。 iit DFA 匹配 很 恼人 。 

最 终 我 会 展开 这 3 点 。 


因为 NFA 是 表达 式 主导 的 ， 谈 论 它 是 件 很 有 意思 的 事情 。NFA 为 创造 性 思维 提供 了 丰富 的 
施展 空间 。 调 校 好 一 个 表达 式 能 带 来 许多 收益 ， 调 校 不 好 则 会 带 来 严重 后 果 。 这 就 好 比 发 
动机 的 熄火 和 点 不 着 火 ， 他 们 并 不 只 是 汽油 发 动机 的 专利 。 为 了 彻底 和 弄 明白 这 个 问题 ， 我 
们 来 看 NFA 最 重要 的 部 分 : 回溯 (backtracking), 


回 济 


Backtracking 


NFA 引擎 最 重要 的 性 质 是 ， 它 会 依次 处 理 各 个 子 表达 式 或 组 成 元 素 ， 遇 到 需要 在 两 个 可 能 
成 功 的 可 能 中 进行 选择 的 时 候 ， 它 会 选择 其 一 ， 同 时 记 住 另 一 个 ， 以 备 稍 后 可 能 的 需要 。 


需要 做 出 选择 的 情形 包括 量词 (决定 是 否 尝试 另 一 次 匹配 ) 和 多 选 结构 (决定 选择 哪个 多 
选 分 支 ， 留 下 哪个 稍 后 尝试 ) 。 


不 论 选 择 那 一 种 途径 ， 如 果 它 能 匹配 成 功 ， 而 且 正 则 表达 式 的 余下 部 分 也 成 功 了 ， 匹 配 即 
告 完成 。 如 果 正 则 表达 式 中 余下 的 部 分 最 终 匹 配 失败 ， 引 擎 会 知道 需要 回溯 到 之 前 做 出 选 
择 的 地 方 ， 选 择 其 他 的 备用 分 支 继续 尝试 。 这 样 ， 引 擎 最 终 会 尝试 表 达 式 的 所 有 可 能 途径 
(或 者 是 匹配 完成 之 前 需要 的 所 有 途径 )。 
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真实 世界 中 的 例子 : HAR 


A Really Crummy Analogy 


Fl ae wR AR AE ERE A n ER RE RR, BRAT, 
直到 遇见 面包 悄 标 示 的 尚未 尝试 过 的 道路 。 如 果 那 条 路 也 走 不 通 ， 你 可 以 继续 返回 ， 找 到 
下 一 堆 面 包 悄 ， 如 此 重复 ， 直 到 找到 出 路 ， 或 者 走 完 所 有 没有 尝试 过 的 路 。 


在 许多 情况 下 ， 正 则 引擎 必须 在 两 个 (或 更 多 ) 选项 中 做 出 选择 一 一 我 们 之 前 看 到 的 分 支 
的 情况 就 是 一 例 。 另 一 个 例子 是 ， 在 遇 到 '…x?…) 时 ， 引 擎 必须 决定 是 否 尝试 匹配 x. t 
于 …x+… 的 情况 ， 毫 无 疑问 , xs 至 少 尝试 匹配 一 次 一 一 因为 加 号 要 求 必须 匹配 至 少 一 次 。 
第 一 个 x 匹配 之 后 , 此 要 求 已 经 满足 , 需要 决定 是 否 尝 试 下 一 个 xj。 如 果 决 定 进行 ,还 要 
决定 是 否 匹配 第 三 个 x, WUA 'x,， 如 此 继续 。 每 次 选择 ， 其 实 就 是 酒 下 一 堆 “ 面 包 悄 ”, 
用 十 提示 此 处 还 有 另 一 个 可 能 的 选择 (目前 还 不 能 确定 它 能 否 匹配 )， 保 留 起 来 以 备用 。 





一 个 简单 的 例子 


现在 来 看 个 完整 的 例子 ， 用 先前 的 'to(nitelknight night) EREE ‘hot-tonic: 
tonight! “ (看 起 来 有 点 无 聊 ， 但 是 个 好 例子 ) 。 第 一 个 元 素 已, 从 字符 串 的 最 左 端 开 始 尝 
试 ， 因 为 无 法 匹配 “h  ， 所 以 在 这 个 位 置 匹配 失败 。 传 动 装置 于 是 驱动 引擎 向 后 移动 ， 从 
第 二 个 位 置 开始 匹配 (同样 也 会 失败 )， 然 后 是 第 三 个 。 这 时 候 't, 能 够 匹配 ， 接 下 来 的 o 
无 法 匹配 ， 因 为 字符 串 中 对 应 位 置 是 一 个 空格 。 至 此 ， 本 轮 尝 试 宣告 失败 。 


继续 下 去 ， 从 …,tonic… 开 始 的 尝试 则 很 有 意思 。to 匹配 成 功 之 后 ， 剩 下 的 3 个 多 选 分 支 
都 成 为 可 能 。 引 擎 选取 其 中 之 一 进行 尝试 ， 留 下 其 他 的 备用 (也 就 是 酒 下 一 些 面包 屑 )。 在 
讨论 中 , 我 们 假定 引擎 首先 选择 的 是 nitel。 这 个 表达 式 被 分 解 为 “mi+ i++re”， 在 … 
toni,c… 遭 遇 失 败 。 但 此 时 的 情况 与 之 前 不 同 ， 这 种 失败 并 不 意味 着 整个 表达 式 匹 配 失 败 
一 ~ 因为 仍然 存在 没有 尝试 过 的 多 选 分 支 ( 就 好 像 是 ， 我 们 仍然 可 以 找到 先前 留 下 的 面包 
JA). 假设 引擎 然 后 选择 knight,, 那么 马上 就 会 遭遇 失败 ,因为 ki 不 能 匹配 “n'。 现在 只 
剩 下 最 后 的 选项 night, 但 它 不 能 失败 。 因 为 "might 是 最 后 尝试 的 选项 , 它 的 失败 也 就 意 
味 着 整个 表达 式 在 …tonic… 的 位 置 匹配 失败 ， 所 以 传动 机 构 会 驱动 引擎 继续 前 进 。 


i 
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直到 引擎 开始 从 … tonight! 处 开始 匹配 ， 情 况 又 变 得 有 趣 了 。 这 一 次 ， 多 选 分 支 nighti 
终于 可 以 匹配 字符 串 的 结尾 部 分 了 (于 是 整体 匹配 成 功 ， 现 在 引擎 可 以 报告 匹配 成 功 了 )。 


回溯 的 两 个 要 点 


Two Important Points on Backtrachitig 


回溯 机 制 的 基本 原理 并 不 难 理解 ， 还 是 有 些 细节 对 实际 应 用 很 重要 。 它 们 是 ， 面 对 众多 选 
择 时 ， 哪 个 分 支 应 当 首先 选择 ? 回溯 进行 时 ， 应 该 选取 哪个 保存 的 状态 ?第 一 个 问题 的 答 
案 是 下 面 这 条 重要 原则 : 


如 果 需 要 在 “进行 尝试 ”和 “ 跳 过 尝试 ”之 间 选 择 ， 对 于 匹配 优先 量词 ， 引 擎 会 优先 
选择 “进行 尝试 "， 而 对 于 忽略 优先 量词 ， 会 选择 “ 跳 过 尝试 ”。 


此 原则 影响 深远 。 对 于 新 手 来 说 ， 它 有 助 于 解释 为 什么 匹配 优先 的 量词 是 “匹配 优先 ”的 ， 
但 还 不 完整 。 要 想 彻底 弄 清 楚 这 一 点 ， 我 们 需要 了 解 回 溯 时 使 用 的 是 哪个 (或 者 是 哪些 个 ) 
之 前 保存 的 分 支 ， 答 案 是 : 


距离 当前 最 近 储 存 的 选项 就 是 当 本 地 失败 强制 回 少时 返回 的 。 使 用 的 原则 是 LIFO (last 
in first out， 后 进 先 出 )。 


用 面包 习 比 喻 就 很 好 理解 一 一 如 果 前 面 是 死路 ， 你 只 需要 沿 原 路 返回 ， 直 到 找到 一 堆 面 包 
悄 为 止 。 你 会 遇 到 的 第 一 堆 面 包 悄 就 是 最 近 洒 下 的 。 传 统 的 LIFO 比喻 也 是 这 样 : 就 像 堆 全 
盘子 一 样 ， 最 后 登 上 去 的 盘子 肯定 是 最 先 拿 下 来 的 。 


备用 状态 


Saved States 


用 NFA 正则 表达 式 的 术语 来 说 ， 那 些 面 包 悄 相当 于 “备用 状态 (saved state)”, CHARER 
id: 在 需要 的 时 候 ， 匹 配 可 以 从 这 里 重新 开始 尝试 。 它 们 保存 了 两 个 位 置 ， 正则 表达 式 中 
的 位 置 ， 和 未 尝试 的 分 支 在 字符 串 中 的 位 置 。 因 为 它 是 NFA 匹配 的 基础 ， 我 们 需要 再 看 一 
遍 某 些 已 经 出 现 过 的 简单 但 详细 的 例子 ， 说 明 这 些 状 态 的 意义 。 如 果 你 觉得 现 有 的 内 容 都 
不 难 懂 ， 请 继续 阅读 。 


| 


www.TopSage.com 


160 第 4 章 : 表达 式 的 匹配 原理 


未 进行 回溯 的 匹配 


来 看 个 简单 的 例子 ， 用 ab?cj 匹配 abc, 'ai 匹配 之 后 ， 匹 配 的 当前 状态 如 下 : 


f 
fa be’ a b?c; 
à a 


现在 轮 到 b?, 了 ， 正 则 引擎 需要 决定 : 是 需要 尝试 bI, TERE? 因为 ?是 匹配 优先 的 ， 
它 会 尝试 匹配 。 但 是 ， 为 了 确保 在 这 个 尝试 最 终 失 败 之 后 能 够 恢复 ， 引 擎 会 把 : 


‘a bc’ | ab? E! 


添加 到 备用 状态 序列 中 。 也 就 是 说 ， 稍 后 引擎 可 以 从 下 面 的 位 置 继续 匹配 ， 从 正则 表达 式 
中 的 b? 之 后 , 字符 串 的 b 之 前 (也 就 是 当前 的 位 置 ) 匹配 。 这 实际 上 就 是 跳 过 "b, 的 匹配 ， 
而 问号 容许 这 样 做 。 


引擎 放下 面包 屑 之 后 ， 就 会 继续 向 前 ， 检 查 "bj。 在 示例 文本 中 ， 它 能 够 匹配 ， 所 以 新 的 当 
前 状态 变 为 


T - 
‘ab c’ ab? ,Cl 


最 终 的 ,也 能 成 功 匹 配 ， 所 以 整个 匹配 完成 。 备 用 状态 不 再 需要 了 ， 所 以 不 再 保存 它们 。 


进行 了 回溯 的 匹配 


如 果 需 要 匹配 的 文本 是 “ac' ,在 尝试 'bj 之 前 ， 一 切 都 与 之 前 的 过 程 相同 。 显 然 ， 这 次 "bj 
无 法 匹配 。 也 就 是 说 ， 对 …?, 进 行 尝试 的 路 走 不 通 。 因 为 有 一 个 备用 状态 ， 这 个 “局 部 匹 
配 失败 ”并 不 会 导致 整体 匹配 失败 。 引 擎 会 进行 回 斋 ， 也 就 是 说 ， 把 “当前 状态 ”切换 为 
最 近 保 存 的 状态 。 在 本 例 中 ， 情 况 就 是 : 


F 
‘a c’ ab? Ke 


在 pb 尝试 之 前 保存 的 尚未 尝试 的 选项 。 这 时 候 ，c, 可 以 匹配 <， 所 以 整个 匹配 宣告 完成 。 
不 成 功 的 匹配 


现在 , 我 们 用 同样 的 表达 式 匹配 “abx'。 在 尝试 b 以 前 ， 因 为 存在 问号 ， 保 存 了 这 个 备用 
状态 : 


‘a bx lab? Ke 
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b MEIER, 但 这 条 路 往 下 却 走 不 通 了 , 因为 'cj 无 法 匹配 x。 于 是 引擎 会 回溯 到 之 前 的 状 
AS, “28x” b 给 'c/ 来 匹配 。 显 然 , 这 次 铀 试 也 失败 了 。 如 果 还 有 其 他 保存 的 状态 ， 回 济 会 
继续 进行 ， 但 是 此 时 不 存在 其 他 状态 ， 在 字符 串 中 当前 位 置 开 始 的 整个 匹配 也 就 宣告 失败 。 
事情 到 此 结束 了 吗 ? 没有 。 传 动 装置 会 继续 “在 字符 串 中 前 行 ， 再 次 尝试 正则 表达 式 ”， 这 
可 能 被 想象 为 一 个 伪 回 调 (pseudo-backtrack)。 匹 配 重 新 开始 于 : 


‘a bX ab?c) 
A A 


从 这 里 重新 开始 整个 匹配 ， 如 同 之 前 一 样 ， 所 有 的 道路 都 走 不 通 。 接 下 来 的 两 次 (从 ab x 
到 abx,) 都 告 失败 ， 所 以 最 终 会 报告 匹配 失败 。 


忽略 优先 的 匹配 


现在 来 看 最 开始 的 例子 , 使 用 忽略 优先 匹配 量词 , 用 'ab??ci 来 匹配 “abc" 。al 匹 配 之 后 的 
状态 如 下 : 


‘a be’ ‘a.b??c) 


接 下 来 轮 到 b??,， 引 擎 需要 进行 选择 : 尝试 匹配 b, 还 是 忽略 ? 因为 ?? 是 忽略 优先 的 ， 它 
会 首先 尝试 忽略 ， 但 是 ， 为 了 能 够 从 失败 的 分 支 中 人 恢复， 引擎 会 保存 下 面 的 状态 ; 


f 
fa be’ a be) 


到 备用 状态 列表 中 。 于 是 ， 引 擎 稍 后 能 够 用 正则 表达 式 中 的 b 来 尝试 匹配 文本 中 的 b (我 
们 知道 这 能 够 匹配 ， 但 是 正则 引擎 不 知道 ， 它 甚至 都 不 知道 是 否 会 要 用 到 这 个 备用 状态 ) 。 
状态 保存 之 后 ， 它 会 继续 向 前 ， 沿 着 忽略 匹配 的 路 走 下 去 : 


“a be’ 'ab?? .Cl 


‘cl 无 法 匹配 “pb ， 所 以 引擎 必须 回调 到 之 前 保存 的 状态 : 


‘ , j 
a bc a be; 


显然 , 此 时 匹配 可 以 成 功 , 接 下 来 的 c, 匹配 “c"。 于 是 我 们 得 到 了 与 使 用 匹配 优先 的 ab?c， 
同样 的 结果 ， 虽 然 两 者 所 走 的 路 不 相同 。 


it 
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回溯 与 匹配 优先 


Backtracking and Greediness 


如 果 工 具 软 件 使 用 的 是 NFA 正则 表达 式 主导 的 回 滴 引 擎 ， 理 解 正则 表达 式 的 回溯 原理 就 成 
了 高 效 完成 任务 的 关键 。 我 们 已 经 看 到 '?, 的 匹配 优先 和 '??; 的 忽略 优先 是 如 何 工作 的 ， 现 
在 来 看 星 号 和 加 号 。 


星 号 、 加 号 及 其 回溯 


如 果 认 为 'x* 基本 等 同 于 'x?x?x?x?x?x?…1 (或 者 更 确切 地 说 是 "(x (x (x(x…?)?)?)?)?)1) 

( 注 5)， 那 么 情况 与 之 前 没有 大 的 差别 。 每 次 测试 星 号 作用 的 元 素 之 前 ， 引 擎 都 会 保存 一 
个 状态 ， 这 样 ， 如 果 测 试 失败 (或 者 测试 进行 下 去 遭遇 失败 )， 还 能 够 从 保存 的 状态 开始 匹 
配 。 这 个 过 程 会 不 断 重复 ， 直 到 包含 星 号 的 尝试 完全 失败 为 止 。 


所 以 ,如果 用 ' 00-9]+4 来 匹配 “a*1234.num" ，[0-9]) 遇 到 4 之 后 的 空格 无 法 匹配 ， 而 此 时 
加 号 能 够 回溯 的 位 置 对 应 了 四 个 保存 的 状态 : 


a 1 234 num 
a 12 34 num 
a 123 4 num 
a 1234) num 


也 就 是 说 ， 在 每 个 位 置 , [0-9], 的 尝试 都 代表 一 种 可 能 。 在 '[0-911 遇 到 空格 匹配 失败 时 ， 
引擎 回溯 到 最 近 保 存 的 状态 (也 就 是 最 下 面 的 位 置 )， 选 择 正则 表达 式 中 的 '[0-9]+ ,和 文 
本 中 的 “a*1234 num’。 当 然 ， 到 此 整个 正则 表达 式 已 经 结束 ， 所 以 我 们 知道 ， 整 个 匹配 宜 
告 完成 。 


请 注意 ,'a- ,1234'num” 并 不 在 列表 中 , 因为 加 号 限定 的 元 素 至 少 要 匹配 一 次 ， 这 是 必要 条 
件 。 那么 , 如 果 正 则 表达 式 是 “50-9]*, 这 个 状态 会 保存 吗 ? (提示 : 这 个 问题 得 动 点 脑筋 ) 。 
要 知道 答案 ， 依 请 翻 到 下 一 页 。 


重新 审视 更 完整 的 例子 


有 了 更 详细 的 了 解 之 后 ， 我 们 再 来 看 看 第 152 页 的 “.*([0-9] [0-9]); 的 例子 。 这 一 次 ， 
我 们 不 是 只 用 “匹配 优先 ” PUR ASS mee: 我 们 能 够 根据 NFA 的 匹 
配 机 制 做 出 精确 解释 。 


以 “ca*95472:UsA” 为 例 。 在 “.*! 成 功 匹 配 到 字符 串 的 末尾 时 ， 星 号 约束 的 点 号 匹配 了 13 


注 5; 作为 比较 ， 请 记 住 DFA 并 不 关心 表达 式 的 形式 ， 对 DFA 来 说 ， 这 3 个 例子 是 无 差别 的 。 


iff 
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个 字符 ， 同 时 保存 了 许多 备用 状态 。 这 些 状态 表明 稍 后 的 匹配 开始 的 位 置 : 在 正则 表达 式 
中 是 “^.*，([0-9] [0-9}),， 在 字符 串 中 则 是 点 号 每 次 匹配 时 保存 的 备用 状态 。 


现在 我 们 已 经 到 了 字符 串 的 末尾 ， 并 把 控制 权 交 给 第 一 个 [0-9],， 显 然 这 里 的 匹配 不 能 成 
功 。 没 问题 ， 我 们 可 以 选择 一 个 保存 的 状态 来 进行 尝试 (实际 上 保存 了 许多 的 状态 )。 现 在 
回 滴 开 始 ， 把 当前 状态 设置 为 最 近 保存 的 状态 ， 也 就 是 '.*| 匹配 最 后 的 A 之 前 的 状态 。 名 
RS (或 者 ， 如 果 你 愿意 ， 可 以 使 用 “交还 ") 这 个 匹配 ， 于 是 有 机 会 用 '[0-9] 匹配 这 个 A, 
但 这 同样 会 失败 。 


这 种 “回潮 -尝试 ”的 过 程 会 不 断 循环 ， 直 到 引擎 交还 2 为 止 , 在 这 里 , 第 一 个 (0-9), 可 以 
匹配 。 但 是 第 二 个 [0-9] J 仍然 无 法 匹配 ,所 以 必须 继续 回溯 ,现在 ,之 前 尝试 中 第 一 个 '[0-9]) 
是 否 匹 配 与 本 次 尝试 并 无 关系 了 ， 回 漳 机 制 会 把 当前 的 状态 中 正则 表达 式 内 的 对 应 位 置 设 
置 到 第 一 个 '[0-9] ,以 前 。 我 们 看 到 ， 当前 的 回溯 同样 会 把 字符 串 中 的 位 置 设置 到 7 以 前 ， 
所 以 第 一 个 [0-9] 可 以 匹配 ， 而 第 二 个 "0-9] 也 可 以 (匹配 2)。 所 以 ， 我 们 得 到 一 个 匹 
配 结果 “ca'95472,*USaA " ，、$1 得 到 72。 





需要 注意 的 是 : 第 一 ， 回 溯 机 制 不 但 需要 重新 计算 正则 表达 式 和 文本 的 对 应 位 置 ， 也 需要 
维护 括号 内 的 子 表达 式 所 匹配 文本 的 状态 。 在 匹配 过 程 中 ， 每 次 回溯 都 把 当前 状态 中 正则 
表达 式 的 对 应 位 置 指向 括号 之 前 ， 也 就 是 “^.*， (10-9} {0-91),。 在 这 个 简单 的 例子 中 ， 所 
以 它 等 价 于 '^.*, [0-9] [0-9],， 因 此 我 说 “使 用 第 一 个 [0-9] 之 前 的 位 置 "。 然 而 ， 回 漳 对 
括号 的 这 种 处 理 ， 不 但 需要 同时 维护 $1 的 状态 ， 也 会 影响 匹配 的 效率 。 

最 后 需要 注意 的 一 点 也 许 读 者 早 就 了 解 : 由 星 号 (或 其 他 任何 匹配 优先 量词 ) 限定 的 部 分 
不 受 后 面 元 素 影 响 ,而 只 是 匹配 尽 可 能 多 的 内 容 。 在 我 们 的 例子 中 ，. “在 点 号 匹配 失败 之 


前 , 完全 不 知道 , 到 底 应 该 在 哪个 数字 或 者 是 其 他 什么 地 方 停 下 来 。 在 “.*([0-91+) 1 的 例 
子 中 我 们 看 到 , '(0-9)+, 只 能 匹配 一 位 数字 (7153), 


关于 匹配 优先 和 回溯 的 更 多 内 容 
More About Greediness and Backtracking 


NFA 和 DFA 都 具备 许多 匹配 优先 相关 的 特性 (也 从 中 获 益 )。(DFA 不 支持 忽略 优先 ， 所 以 
我 们 现在 只 关注 匹配 优先 ) 。 我 将 考察 两 种 引擎 共同 支持 的 匹配 优先 特性 ， 但 只 会 用 NFA 
来 讲解 。 这 些 内 容 对 DFA 也 适用 ， 但 原因 与 NFA 不 同 。DFA 是 匹配 优先 的 ， 使 用 起 来 很 
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测试 答案 


4 162 页 测试 的 答案 

如 果 用 [0-9] 上 匹配 “a'1234'num  ， 备 用 状态 是 否 包括 “a' 1234-num”? 
答案 是 否定 的 。 之 所 以 提 这 个 问题 ， 是 因为 这 种 错误 很 常见 。 记 得 吗 ， 由 星 号 限定 的 
部 分 总 是 能 够 匹配 。 如 果 整 个 表达 式 都 由 星 号 控制 ， 它 就 能 够 匹配 任何 内 容 。 在 字符 
事 的 开始 位 置 ， 传 动机 构 对 引擎 进行 第 一 次 尝试 时 的 状态 ， 当 然 算 匹 配 成 功 。 在 这 种 
情况 下 ， 正 则 表达 式 匹 配 “a'1234*num ， 而 且 在 此 处 结尾 它 根本 没有 触及 到 那 
些 数 字 。 

如 果 没 答对 也 不 要 紧 ， 因 为 这 种 情况 还 是 有 可 能 发 生 的 。 如 果 在 表达 式 中 ，[0-9j*i 
之 后 还 出 现 了 某 些 元 素 ， 因 为 它们 的 存在 ， 引 擎 在 达到 下 面 状态 之 前 无 法 获得 全 局 匹 








方便 ， 这 一 点 我 们 只 需要 记 住 就 够 了 ， 而 且 介 绍 起 来 也 很 乏味 。 相 反 ，NFA 的 匹配 优先 就 
很 值得 一 谈 ， 因 为 NFA 是 表达 式 主导 的 ， 所 以 匹配 优先 的 特性 能 产生 许多 神奇 的 结果 。 除 
TERRI, NFA 还 提供 了 其 他 许多 特性 ， 比 如 环视 、 条 件 判断 (conditions)、 反 向 引用 ， 
以 及 固化 分 组 。 最 重要 的 是 NFA 能 让 使 用 者 直接 操控 匹配 的 过 程 ， 如 果 运 用 得 当 ， 这 会 带 
来 很 大 的 方便 ， 但 也 可 能 带 来 某 些 性 能 问题 (具体 见 第 6 章 )。 


不 考虑 这 些 差异 的 话 ， 匹 配 的 结果 通常 是 相通 的 。 我 介绍 的 内 容 适 用 于 两 种 引擎 ,除了 使 
用 表达 式 主导 的 NFA 引擎 。 读 完 本 章 ， 读 者 会 明白 ， 在 什么 情况 下 两 种 引擎 的 结果 会 不 一 
样 ， 以 及 为 什么 会 不 一 致 。 


匹配 优先 的 问题 
Problents of Greediness 


在 上 例 中 已 经 看 到 ，. ”经 常会 匹配 到 一 行文 本 的 末尾 ( 注 6), KEAH'.* 匹配 时 只 从 自 
身 出 发 ， 匹 配 尽 可 能 多 的 内 容 ， 只 有 在 全 局 匹配 需要 的 情况 下 才 会 “被 迫 ”交还 …- 些 字符 。 


£6: 如 果 工 具 软 件 或 匹配 模式 设置 了 点 号 通 配 模式 , '.*| 能 够 匹配 包含 多 行 数据 的 字 和 检 事 ， 包 
含 所 有 的 还 辑 行 ， 直 到 整个 字符 串 的 末尾 。 


HW 
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有 些 时 候 问题 很 严重 。 来 看 用 一 个 匹配 双 引 号 文本 的 例子 。 读 者 首先 想到 的 可 能 是 “.*"， 
那么 ， 请 运用 我 们 刚刚 学 到 的 关于 .* 的 知识 ， 猜 一 猜 用 它 匹配 下 面 文本 的 结果 ，; 

The name "McDonald's" is said "makudonarudo" in Japanese. 
Rie SCAR, AREAS AM, AR) “Su” AR. ERFIN] 
号 匹配 之 后 ，.*) 能够 匹配 任何 字符 ,所 以 它 会 一 直 匹 配 到 字符 串 的 末尾 。 为 了 让 最 后 的 双 
引号 能 够 匹配 ，. ”会 不 断交 还 字符 (或 者 ， 更 确切 地 说 ， 是 正则 引擎 强迫 它 回 退 ) ， 直 到 
满足 为 小 。 最 后 ， 这 个 正则 表达 式 匹 配 的 结果 就 是 : 


The name "McDonald's" is said "makudonarudo"” in Japanese. 


这 显然 不 是 我 们 期 望 的 结果 。 我 之 所 以 提醒 读者 不 要 过 分 依赖 .*,， 这 就 是 原因 之 一 ， 如 果 
不 注意 匹配 优先 的 特性 ， 结 果 往 往 出 乎 意料 。 





那么 ， 我 们 如 何 能 够 只 取得 "McDponald's" 呢 ? 关键 的 问题 在 于 要 认识 到 ， 我 们 希望 匹配 的 
不 是 双 引 号 之 间 的 “任何 文本 ”, 而 是 “ 除 双 引号 以 外 的 任何 文本 ”。 ANA ic 取代".*,， 
就 不 会 出 现 上 面 的 问题 。 


使 用 “"[^"]*"; 时 ， 正 则 引擎 的 基本 匹配 过 程 跟 上 面 是 一 样 的 。 第 一 个 双 引 号 匹配 之 后 ， 
[^"] +) SUAS a RES AST. ERB, BLE McDonald's， 因 为 '[^"] | 无 法 匹配 之 后 
的 双 引 号 。 此 时 ， 控 制 权 转移 到 正则 表达 式 末 尾 的 “";。 而 它 刚 好 能 够 匹配 ， 所 以 获得 全 局 
匹配 ; 


The name "McDonald's", is said "makudonarudo" in Japanese. 


事实 上 ， 可 能 还 存在 一 种 出 乎 读者 预料 的 情况 , 因为 在 大 多 数 流派 中 ，!“ "] ,能 够 匹配 换行 
符 ， 而 点 号 则 不 能 。 如 果 不 想 让 表达 式 匹 配 换行 符 ， 可 以 使 用 {^"\n]。 





多 字符 “引文 


Multi-Character “Quotes” 


第 ! 章 出 现 了 对 HTML tag 的 匹配 ， 例 如 ， 浏 览 器 会 把 <B>very</B> 中 的 “very” 演 染 为 粗 
体 。 对 <B>…</B> 的 匹配 尝试 看 起 来 与 对 双 引 号 匹配 的 情形 很 相似 ， 只 是 “ 双 引 号 ”在 这 里 
成 了 多 字符 构成 的 <B> 和 </B>。 与 双 引 号 字符 串 的 例子 一 样 ， 使 用 “.*, 匹配 多 字符 “3 引文 ” 
也 会 出 错 : 


--<B>Billions</B> and <B>Zillions</B> of suns::: 


'<B>.*</B>! 中 匹配 优先 的 '.*, 会 一 直 匹 配 该 行 结尾 的 字符 , 回溯 只 会 进行 到 '</B>; 能 够 匹 
配 为 止 ， 也 就 是 最 后 一 个 </B> ， 而 不 是 与 匹配 开头 的 <B>, 对 应 的 </B> 
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不 幸 的 是 ， 因 为 结束 tag 不 是 单个 字符 ， 所 以 不 能 用 之 前 的 办 法 ， 也 就 是 “排除 型 字符 组 ” 
来 解决 ， 即 我 们 不 能 期 望 用 '<B>[^</B>] *</B>, 解决 问题 。 字 符 组 只 能 代表 单个 字符 ， 而 
我 们 需要 的 '</B>, 是 一 组 字符 。 请 不 要 被 '[^</B>] ,迷惑 , 它 只 是 表示 一 个 不 等 于 <、>、/、 
8 的 字符 , SF'S <B, 而 这 显然 不 是 我 们 想 要 的 “ 除 </B> 结 构 之 外 的 任何 内 容 ”( 当 
然 ， 如 果 使 用 环视 功能 ,我们 可 以 规定 ,在 某 个 位 置 不 应 该 匹配 </B>,， 下 一 节 会 出 现 这 种 
应 用 )。 


使 用 忽略 优先 量词 


Using Lazy Quantifiers 
上 面 的 问题 之 所 以 会 出 现 ， 原 因 在 于 标准 量词 是 匹配 优先 的 。 某 些 NFA 支持 忽略 优先 的 量 
词 (7141), +? 就 是 与 * 对 应 的 忽略 优先 量词 。 我 们 用 '<B>.*?</B>, 来 匹配 : 


--<B>Billions</B> and <B>Zillions</B> of suns… 


开始 的 <B>, 匹配 之 后 ,'.*?, 首先 决定 不 需要 匹配 任何 字符 ， 因 为 它 是 忽略 优先 的 。 于 是 ， 
控制 权 交 给 后 面 的 '<, 符 号 : 





‘ « . , j 
"<B> Billions: <B>. *? </B> 


此 时 !<, 无 法 匹配 ， 所 以 控制 权 交 还 给 !.*? ,， 因 为 还 有 未 尝试 过 的 匹配 可 能 (事实 上 能 名 
进行 多 次 匹配 尝试 )。 它 的 匹配 尝试 是 步步为营 的 (begrudgingly) ， 先 用 点 号 来 匹配 … 
<a>Billions… 中 带 下 夯 线 的 8。 此 时 ，*? 又 必须 选择 ， 是 继续 尝试 匹配 ， 还 是 忽略 ?因为 
它 是 忽略 优先 的 , 会 首先 选择 忽略 。 TRN < 仍然 无 法 匹配 , 所 以 7.*?) 必须 继续 尝试 未 
匹配 的 分 支 。 在 这 个 过 程 重复 8 次 之 后 , '.*?, 最 终 匹 配 了 Billions， 此 时 ， 解 下 来 的 '<， 
(以 及 整个 <7B>)) 都 能 匹配 ; 


-<B>Billions</B> and <B>Zillions</B> of suns::: 


所 以 我 们 知道 了 ， 星 号 之 类 的 匹配 优先 量词 有 时 候 的 确 很 方便 ， 但 有 时 候 也 会 带 来 大 麻烦 。 
这 时 候 ， 忽 略 优先 的 量词 就 能 派 上 用 场 了 ， 因 为 它们 做 到 其 他 办 法 很 难 做 到 (甚至 无 法 做 
到 ) 的 事情 。 当 然 ， 缺 乏 经 验 的 程序 员 也 可 能 错误 地 使 用 忽略 优先 量词 。 事 实 上 ， 我 们 刚 
刚 做 的 或 许 就 不 正确 。 如 果 用 <B>.*?</B>! 来 匹配 : 





--<B>Billions and <B>Zillions</B> of suns- 





结果 如 上 图 ， 虽 然 我 假设 匹配 的 结果 取决 于 具体 的 需求 ， 但 我 仍然 认为 ， 这 种 情况 下 的 结 
果 不 是 用 户 期 望 的 。 不 过 ，.*?! 必然 会 匹配 Zillions 左边 的 <B> ， 一 直到 </B>。 


www.TopSage.com 


关于 匹配 优先 和 回溯 的 更 多 内 容 167 


这 个 例子 很 好 地 说 明了 ， 为 什么 通常 情况 下 ， 忽 略 优先 量词 并 不 是 排除 类 的 完美 替身 。 在 
“.*"| 的 例子 中 ,使 用 [^ "1 替换 点 号 能 避免 跨越 引号 的 匹配 一 一 这 正 是 我 们 希望 实现 的 
功能 。 


如 果 支 持 排除 环视 (了 133) ， 我 们 就 能 得 到 与 排除 型 字符 组 相当 的 结果 。 比 如 ，(?!<B>)， 
这 个 测试 , 只 有 当 <B> 不 在 字符 串 中 的 当前 位 置 时 才能 成 功 。 这 也 是 '<B>.*?</B>, 中 的 点 号 
期 望 匹配 的 内 容 ， 所 以 把 点 号 改 为 ((?!<B>) .) ,得 到 的 正则 表达 式 ， 就 能 准确 匹配 我 们 期 
望 的 内 容 。 把 这 些 综合 起 来 , 结果 有 点 儿 难 看 懂 , 所 以 我 选用 带 注释 的 宽松 排列 模式 (111) 
来 讲解 : 


<B> # 匹配 开头 的 <B> 

( # 然后 只 匹配 尽 可 能 少 的 内 容 
(?! <B> ) # 如 果 不 是 <B>... 
l # 1... 任何 字符 都 可 以 

Ir? # 

</B> # ... 直到 遇 到 结束 标记 


使 用 了 环视 功能 之 后 ， 我 们 可 以 重新 使 用 普通 的 匹配 优先 量词 ， 这 样 看 起 来 更 清楚 : 


匹配 开头 的 <B> 

然后 匹配 尽 可 能 多 的 内 容 

如 果 不 是 <B>， 也 不 是 </B> . 

. . .任何 字符 都 可 以 
(现在 是 匹配 优先 的 量词 ) 
<ANNO> ... 直到 结束 分 陋 罕 匹配 


现在 ， 环 视 功能 会 禁止 正则 表达 式 的 主体 (main body) 匹配 <B> 和 </B> 之 外 的 内 容 ， 这 也 
是 我 们 之 前 试图 用 忽略 优先 量词 解决 的 问题 ， 所 以 现在 可 以 不 用 忽略 优先 功能 了 。 这 个 表 
达 式 还 有 能 够 改进 的 地 方 ， 我 们 将 在 第 6 章 关 于 效率 的 讨论 中 看 到 它 (7270), 


<B> 
( 
(?! </? B>) 


)* 


</B> 


e+e t te +H + 


匹配 优先 和 忽略 优先 都 期 望 获得 匹配 


Greediness and Laziness Always Favor a Match 


回忆 一 下 第 2 章 中 显示 价格 的 例子 (51)。 我 们 会 在 本 章 的 多 个 地 方 仔细 检查 这 个 例子 ， 
所 以 我 先 重申 一 下 基本 的 问题 : 因为 浮 点 数 的 显示 问题 ,“1.625” 或 者 “3.00” 有 时 候 会 变 
成 “1.62500000002828” 和 “3.00000000028822”。 为 解决 这 个 问题 ， 我 使 用 : 


Sprice =~ s/(\.\d\d(1-9) ?) \d*/$1/; 


来 保存 Sprice 小 数 点 后 头 两 到 三 位 十 进 制 数字 。\.\a\d 匹 配 最 开始 两 位 数字 , 而 (1-9) 2: 
用 来 匹配 可 能 出 现 的 不 等 于 零 的 第 三 个 数字 。 
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然后 我 写 道 


到 现在 ， 我 们 能 够 匹配 的 任何 内 容 都 是 希望 保留 的 ， 所 以 用 括号 包围 起 来 ， 作 为 $1 捕 
获 。 然 后 就 能 在 replacement 字符 串 中 使 用 $1。 如 果 这 个 正则 表达 式 能 够 匹配 的 文本 就 
等 于 $1， 那 么 我 们 就 是 用 一 个 文本 取代 它 本 身 一 一 这 没有 多 少 意 义 。 然 而 ， 我 们 继续 
匹配 $1 括号 之 外 的 部 分 。 在 替代 字符 串 中 它们 并 不 出 现 , 所 以 结果 就 是 它们 被 删 掉 了 。 
在 本 例 中 ,“ 要 删 掉 ”的 文本 就 是 任何 多 余 的 数字 ， 也 就 是 正则 表达 式 中 末尾 的 Na 
匹配 的 部 分 。 


到 现在 看 起 来 一 切 正常 ， 但 是 ， 如 果 sprice 的 数据 本 身 规范 格式 ， 会 出 现 什么 问题 呢 ? 如 
果 $price 是 27.625, 那么 人 \.\avaf1-9]? 能够 匹配 整个 小 数 部 分 。 因 为 人 da*, 无 法 匹配 任 
何 字符 ， 整 个 替换 就 是 用 “.625” 替 换 “.525” 一 一 相当 于 白费 工夫 。 


结果 当然 是 我 们 需要 的 ， 但 是 否 存在 更 有 效率 的 办 法 ， 只 进行 真正 必要 的 替换 (也 就 是 ， 
FAY nd 确实 能 够 匹配 到 某 些 字符 的 时 候 才 替换 ) WE? 当然 ,我 们 知道 怎样 表示 “至 少 
一 位 数字 ”! REEN 替换 为 、\d+, 就 好 了 : 


$price =~ s/(\.\d\d[1-9]?) \d+/$1/ 


对 于 “1.62500000002828” 这 样 复杂 的 数字 ， 正 则 表达 式 仍然 有 效 ， 但 是 对 于 “9.43” 这 种 
数字 ,末尾 的 da+, 不 能 匹配 ， 所 以 不 会 替换 。 所 以 ， 这 是 个 了 不 起 的 改动 ， 对 吗 ? 不 ! 如 
果 要 处 理 的 数字 是 27.625, 情况 如 何 呢 ? 我 们 希望 这 个 数字 能 够 被 忽略 , 但 是 这 不 会 发 生 。 
请 仔细 想 想 27.625 的 匹配 过 程 ， 尤 其 是 表达 式 如 何 处理 “5” 这 个 数字 。 


知道 答案 之 后 ， 这 个 问题 就 变 得 非常 简单 了 。 在 \(\.\a\a[1-9]?)\d+j 匹配 27.625 之 后 ， 
A\d+i 无 法 匹配 。 但 这 并 不 会 影响 整个 表达 式 的 匹配 ， 因 为 就 正则 表达 式 而 言 ， 由 [1-9] 
匹配 “5” 只 是 可 选 的 分 支 之 一 ， 还 有 一 个 备用 状态 尚未 尝试 。 它 容许 [1-9]? 匹配 一 个 空 
字符 ,而 把 5 留 给 至 少 必 须 匹 配 一 个 字符 的 人 ar,。 于 是 ,我 们 得 到 的 是 错误 的 结果 : .625 
被 替换 成 了 .62。 


如 果 '[1-91?! 是 忽略 优先 的 又 如 何 呢 ? 我 们 会 得 到 同样 的 匹配 结果 ， 但 不 会 有 “ 先 匹 配 5 
再 回 诸 ”的 过 程 ， 因 为 忽 赂 优先 的 [1-91??) 首 先 会 忽略 尝试 匹配 的 选项 。 所 以 ， 忽 略 优 先 
量词 并 不 能 解决 这 个 问题 。 


匹配 优先 、 忽 略 优先 和 回溯 的 要 旨 


The Essence of Greediness, Laziness, and Backtracking 





之 前 的 章节 告诉 我 们 ， 正 则 表达 式 中 的 某 个 元 素 ， 无 论 是 匹配 优先 ， 还 是 忽略 优先 ， 都 是 
为 全 局 匹配 服务 的 ， 在 这 一 点 上 (对 前 面 的 例子 来 说 ) 它们 没有 区 别 。 如 果 全 局 匹配 需要 ， 
无 论 是 匹配 优先 〈 或 是 忽略 优先 ) ， 在 遇 到 “本 地 匹配 失败 ”时 ， 引 擎 都 会 回归 到 备用 状态 
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(按照 足迹 返回 找到 面包 悄 )， 然 后 尝试 尚未 尝试 的 路 径 。 无 论 匹 配 优 先 还 是 忽略 优先 ， 只 
要 引擎 报告 匹配 失败 ， 它 就 必然 尝试 了 所 有 的 可 能 。 


测试 路 径 的 先后 顺序 , 在 匹配 优先 和 忽略 优先 的 情况 下 是 不 同 的 (这 就 是 两 者 存在 的 理由 )， 
但 是 ， 只 有 在 测试 完 所 有 可 能 的 路 径 之 后 ， 才 会 最 终 报告 匹配 失败 。 


相反 ， 如 果 只 有 一 条 可 能 的 路 径 ， 那 么 使 用 匹配 优先 量词 和 忽略 优先 量词 的 正则 表达 式 都 
能 找到 这 个 结果 ， 只 是 他 们 尝试 路 径 的 次 序 不 同 。 在 这 种 情况 下 ， 选 择 匹配 优先 还 是 忽略 
优先 , 并 不 会 影响 匹配 的 结果 , 受 影 响 的 只 是 引擎 在 达到 最 终 匹 配 之 前 需要 尝试 的 次 数 (这 
是 关于 效率 的 问题 ， 第 6 章 将 会 谈 到 ) 。 


最 后 ， 如 果 存 在 不 止 一 个 可 能 的 匹配 结果 ， 那 么 理解 匹配 优先 、 忽 略 优 先 和 回调 的 读者 ， 
就 明白 应 该 如 何 选择 。" .*": 有 3 个 可 能 的 匹配 结果 : 


The name "McDonald's" s said "makudonarudo" in Japenese. 
oR rf 





我 们 知道 , 使 用 匹配 优先 星 号 的 “".*", 匹配 最 长 的 结果 , Te ARE SAY "2" OC 
配 最 短 的 结果 。 


占有 优先 量词 和 固化 分 组 


Possessive Quantifiers and Atomic Grouping 


上 一 页 中 “.525” 的 例子 展示 了 关于 NFA 匹配 的 重要 知识 ， 也 让 我 们 认识 到 ， 针 对 这 个 有 具 
体 的 例子 ， 考 虑 不 仔细 就 会 带 来 问题 。 针 对 某 些 流派 提供 了 工具 来 帮助 我 们 ， 但 是 在 接触 
它们 以 前 ， 必 须 彻 底 弄 明白 “匹配 优先 、 忽 略 优先 和 回潮 的 要 旨 ” 这 一 节 。 如 果 读 者 还 有 
不 明白 的 地 方 ， 请 务必 仔细 阅读 上 一 节 。 


那么 ， 仍 然 来 考虑 “.625” 的 例子 ， 想 想 我 们 真正 的 目的 。 我 们 知道 ， 如 果 匹 配 能 够 进行 
到 (\.\ad\a[l1-91?),\d+j 中 标记 的 位 置 , 我 们 就 不 希望 进行 回溯 ,也 就 是 说 , 我们 希望 的 
是 ， 如 果 可 能 ,“[1-9] ,能 够 一 个 字符 ， 果 真如 此 的 话 ， 我 们 不 希望 交还 这 个 字符 。 或 者 说 
的 更 直 白 一 些 就 是 ， 如 果 需 要 的 话 , 我 们 希望 在 '[1-9], 匹配 的 字符 交还 之 前 ,整个 表达 式 
就 匹配 失败 。( 这 个 正则 表达 式 匹配 “ .625” 时 的 问题 在 于 ， 它 不 会 匹配 失败 ， 而 是 进行 回 
调 ， 尝 试 其 他 备用 状态 )。 


那么 ， 如 果 我 们 能 够 避免 这 些 备用 状态 呢 (也 就 是 在 [1-9] 进 行 尝试 之 前 ， 放 弃 ?保存 的 
状态 , ) ? 如 果 没 有 退路 ,，[1-91 的 匹配 就 不 会 交还 。 而 这 就 是 我 们 需要 的 ! 但 是 ， 如 果 没 
有 了 这 个 备用 状态 会 发 生 什么 ?如 果 我 们 用 这 个 表达 式 来 匹配 “.5000” 了 呢 ? 此 时 (1-91) 
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不 能 匹配 ， 就 确实 需要 回 湖 ， 放 弃 [1-9],， 让 之 后 的 \a+, 能 够 匹配 需要 删除 的 数字 。 


听 起 来 ， 我 们 有 两 种 相反 的 要 求 ， 但 是 仔细 考虑 考虑 就 会 发 现 ， 我 们 真正 需要 的 是 ， 只 有 
在 某 个 可 选 元 素 已 经 匹配 成 功 的 情况 下 才 抛 弃 此 元 素 的 “忽略 "状态 。 也 就 是 说 ,如 果 [1-9]， 
能 够 成 功 匹 配 ， 就 必须 抛弃 对 应 的 备用 状态 ， 这 样 就 永远 也 不 会 回 退 。 如 果 正 则 表达 式 的 
流派 支持 固化 分 组 '(?>…)， (139)， 或 者 占有 优先 量词 [1-9]?+， (也 142)， 就 可 以 这 么 
做 。 首 先 来 看 固化 分 组 。 


用 (?>…) 实现 固化 分 组 


具体 来 说 ， 使 用 (?>…) ,的 匹配 与 正常 的 匹配 并 无 差别 ， 但 是 如 果 匹 配 进行 到 此 结构 之 后 
(也 就 是 ， 进 行 到 闭 括号 之 后 ) ， 那 么 此 结构 体 中 的 所 有 备用 状态 都 会 被 放弃 。 也 就 是 说 ， 
在 固化 分 组 匹配 结束 时 ， 它 已 经 匹配 的 文本 已 经 固化 为 一 个 单元 ， 只 能 作为 整体 而 保留 或 
放弃 。 括 号 内 的 子 表达 式 中 未 尝试 过 的 备用 状态 都 不 复 存在 了 ， 所 以 回溯 永远 也 不 能 选择 
其 中 的 状态 (至 少 是 ， 当 此 结构 匹配 完成 时 , “锁定 (locked in)” 在 其 中 的 状态 )。 


所 以 ， 让 我 们 来 看 '(\.\a\a(?>[1-91?))\a+J。 在 固化 分 组 内 ， 量 词 能 够 正常 工作 ， 所 以 
如 果 '[1-9], 不 能 匹配 ， 正 则 表达 式 会 返回 '? , 留 下 的 备用 状态 。 然 后 匹配 脱离 国 化 分 组 ， 
继续 前 进 到 、\a+,。 在 这 种 情况 下 ， 当 控制 权 离开 固化 分 组 时 ， 没 有 备用 状态 需要 放弃 (A 
为 在 固化 分 组 中 没有 创建 任何 备用 状态 )。 


如 果 '[1-9]; 能 够 匹配 ,匹配 脱 离 固化 分 组 之 后 , '? ;保存 的 备用 状态 仍然 存在 。 但 是 , 因为 
它 属 于 已 经 结束 的 固化 分 组 ， 所 以 会 被 抛弃 。 匹 配 “.625” 或 者 “.625000” 时 就 会 发 生 
这 种 情况 。 在 后 一 种 情况 下 ， 放 弃 那 些 状态 不 会 带 来 任何 麻烦 ， 因 为 "a+ 匹配 的 是 
‘.625000", 到 这 里 正则 表达 式 已 经 完成 匹配 。 但 是 对 于 “ .625” 来 说 , AA ndn EAR 
配 ， 正 则 引擎 需要 回 滴 ， 但 回溯 又 无 法 进行 ， 因 为 备用 状态 已 经 不 存在 了 。 既 然 没 有 能 够 
回溯 的 备用 状态 ， 整 体 匹配 也 就 失败 ，“ .625” 不 需要 处 理 ， 而 这 正 是 我 们 期 望 的 。 


固化 分 组 的 要 旨 


从 第 168 页 开始 的 “匹配 优先 、 忽 略 优先 和 回溯 的 要 则 ”这 一 节 ， 说 明了 一 个 重要 的 事实 ， 
即 匹配 优先 和 忽略 优先 都 不 会 影响 需要 检测 路 径 的 本 身 ， 而 只 会 影响 检测 的 顺序 。 如 果 不 
能 匹配 ， 无 论 是 按照 匹配 优先 还 是 忽略 优先 的 顺序 ， 基 终 每 条 路 径 都 会 被 测试 。 
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然而 ， 固 化 分 组 与 它们 截然 不 同 ， 因 为 固化 分 组 会 放弃 某 些 可 能 的 路 径 。 根 据 具体 情况 的 
不 同 ， 放 弃 备 用 状态 可 能 会 导致 不 同 的 结果 : 


© BMG 如 果 在 使 用 备用 状态 之 前 能 够 完成 匹配 ， 固 化 分 组 就 不 会 影响 匹配 。 我 们 刚 
刚 看 过 “.625000” 的 匹配 。 全 局 匹配 在 备用 状态 尚未 起 作用 之 前 就 已 经 完成 。 


。 ”导致 匹配 失败 放弃 备用 状态 可 能 意味 着 ， 本 来 有 可 能 成 功 的 匹配 现在 不 可 能 成 功 了 。 
“6.25” 的 例子 就 是 如 此 。 


* ”改变 匹配 结果 在 某 些 情况 下 ， 放 弃 备 用 状态 可 能 得 到 不 同 的 匹配 结果 。 


。 ”加 快报 告 匹配 失败 的 速度 如 果 不 能 找到 匹配 对 象 , 放弃 备用 状态 可 能 能 让 正则 引擎 更 
快 地 报告 匹配 失败 。 先 做 个 小 测验 ， 然 后 我 们 来 谈 这 点 。 


4 小 测验 : (?>.*?)) 是 什么 意思 ? 它 能 匹配 什么 文本 ? 请 翻 到 下 页 查看 答案 。 


某 些 状 态 可 能 保留 在 匹配 过 程 中 ， 引 擎 退出 固化 分 组 时 ， 放 弃 的 只 是 固化 分 组 中 创建 的 状 
态 。 而 之 前 创建 的 状态 依然 保留 ， 所 以 ， 如 果 后 来 的 回溯 要 求 退回 到 之 前 的 备用 状态 ， 
化 分 组 部 分 匹配 的 文本 会 全 部 交还 。 


使 用 固化 分 组 加 快 匹配 失败 的 速度 我 们 一 眼 就 能 看 出 ,“^\w+ :无 法 匹配 “subject', 因为 
“Subject” 中 不 含 冒 号 ， 但 正则 引擎 必须 经 过 尝试 才能 得 到 这 个 结论 。 


第 一 次 检查 : ,时 ,\w+, 已 经 匹配 到 了 字符 串 的 结尾 , 保存 了 若干 状态 一 一 \w: 匹 配 的 每 个 
字符 ,都 对 应 有 “忽略 ”的 备用 状态 (第 一 个 除外 ， 因 为 加 号 要 求 至 少 匹 配 一 次 )。: 无 法 
匹配 字符 串 的 末尾 ， 所 以 正则 引擎 会 回溯 到 最 近 的 备用 状态 : 


. | la 
‘Subj ec t’ \w+ $] 


此 处 的 字符 是 “t',': ,仍然 无 法 匹配 。 于 是 回 滴 -测试 -失败 的 循环 会 不 断 发 生 ， 最 终 退 回 开 
始 的 状态 : 


á » kd TA è 
S ubject | \w+ :1 


此 处 仍然 无 法 匹配 成 功 ， 所 以 报告 整个 表达 式 无 法 匹配 。 


ti 


www.TopSage.com 


172 第 4 章 : 表达 式 的 匹配 原理 


测验 答案 


令 171 页 测试 的 答案 

'(?>.*?) J 会 苞 配 什么 ? 

它 永 远 无 法 匹配 任何 字符 。 充 其 量 它 只 能 算是 个 相当 复杂 的 正则 表达 式 ， 但 不 匹配 任 
何 字符 。.*?1 是 '.* | 的 忽略 优先 表示 ， 它 限定 的 是 一 个 点 号 ， 所 以 首选 的 分 支 就 是 息 
略 点 号 ， 把 匹配 点 号 的 状态 保留 下 来 备用 。 但 是 ， 这 个 保存 的 状态 马上 又 会 被 放弃 ， 
因为 匹配 退出 了 固化 分 组 ， 所 以 真正 尝试 的 只 有 和 忽略 点 号 的 分 支 。 总 是 被 忽略 的 东西 ， 
实际 上 相当 于 不 存在 。 





我 们 只 消 看 一 眼 就 能 知道 ， 所 有 的 回溯 都 是 白费 工夫 。 如 果 冒 号 无 法 匹配 最 后 的 字符 ， 那 
么 它 当然 无 法 匹配 + 交还 的 任何 字符 。 


既然 我 们 知道 , "w+ 匹配 结束 之 后 ， 从 任何 备用 状态 开始 测试 都 不 能 得 到 全 局 匹配 ， 就 可 
以 命令 正则 引擎 不 必 检 查 它 们 :'“~^(?>\w+);。 我 们 已 经 全 面 了 解 了 正则 表达 式 的 匹配 过 程 ， 
可 以 使 用 固化 分 组 来 控制 \w+; 的 匹配 ， 放 弃 备 用 的 状态 (因为 我 们 知道 它们 没有 用 )， 提 
高 效率 。 如 果 存 在 可 以 匹配 的 文本 ， 那 么 固化 分 组 不 会 有 任何 影响 ， 但 是 如 果 不 存在 能 够 
匹配 的 文本 ， 放 弃 这 些 无 用 的 状态 会 让 正则 引擎 更 快 地 得 出 无 法 匹配 的 结论 (先进 的 实现 
也 许 能 够 自动 进行 这 样 的 优化 ， 灾 251) 。 


我 们 将 在 第 6 章 看 到 (第 269 页 )， 固 化 分 组 非常 有 价值 ， 我 怀疑 它 可 能 会 成 为 最 常用 的 技 
巧 。 


占有 优先 量词 ，?+、*+、++ 和 {m,n}+ 


Possessive Quantifiers, ?+, ++, ++, and {n n}+ 


占有 优先 量词 与 匹配 优先 量词 很 相似 , 只 是 它们 从 来 不 交还 已 经 匹配 的 字符 。 我 们 在 “\w+， 
的 例子 中 看 到 ， 加 号 在 匹配 结束 之 前 创建 了 很 少 的 备用 状态 ， 而 占有 优先 的 加 号 会 直接 放 
弃 这 些 状态 (或 者 ,更 形象 地 说 ， 并 不 会 创造 这 些 状态 )。 


你 也 许 会 想 ， 占 有 优先 量词 和 固化 分 组 关系 非常 紧密 。 像 \w++ 这样 的 占有 优先 量词 与 
“(?>\w+) 1 的 匹配 结果 完全 相同 ， 只 是 写 起 来 更 加 方便 而 已 ( 注 7)。 使 用 占有 优先 量词 ， 


“(?>\w+) :1 可 以 写作 人 w++: .avda(?>[1-9]?)) \dts BR '(\.\d\d [1-9] 24) *\ dss, 


注 7: 聪明 的 实现 方式 在 处 理 占 有 优先 量词 时 会 更 高 效 一 些 ， 字 250。 
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请 务必 区 分 (?>M) + 和 OCM 前 者 放弃 M 创建 的 备用 状态 , 因为 w 不 会 制造 任何 状态 ， 
所 以 这 样 做 没什么 价值 。 而 后 者 放弃 M 创造 的 未 使 用 状态 ， 这 样 做 显然 有 意义 。 


比较 (?>M) + 和" (?>M+), 显然 后 者 就 对 应 于 M, 但 如 果 表 达 式 很 复杂 ,例如 '(\\" 11^"]) 
*+j， 从 占有 优先 量词 转换 为 固化 分 组 时 大 家 往往 会 想到 在 括号 中 添加 “?> ”得 到 
“”(?>\W "1[^"]) 思 。 这 个 表达 式 或 许 有 机 会 实现 你 的 目的 ， 但 它 显然 不 等 于 那个 使 用 占有 
优先 量词 的 表达 式 ; 它 就 好 像 是 把 M++ 写作 '(?>M) + 一 样 。 正确 的 办 法 是 ， 去掉 表示 占有 
优先 的 加 号 ， 用 固化 分 组 把 余下 的 部 分 包括 起 来 : (?>(\\" 1[^"])*) 1。 


环视 中 的 回溯 


Hw Backtracking of Lookaround 


初 看 时 并 不 容易 认识 到 ， 环 视 ( 见 第 2M, 759) 与 固化 分 组 和 占有 优先 量词 有 紧密 的 联 
系 。 环 视 分 为 4 种 : HE (positive) 和 否定 型 (negative) ， 顺 序 环视 与 逆序 环视 。 它 们 
只 是 简单 地 测试 ， 其 中 表达 式 能 否 在 当前 位 置 匹配 后 面 的 文本 (顺序 环视 )， 或 者 前 面 的 文 
本 (逆序 环视 )。 


深入 点 看 ， 在 NFA 的 世界 中 包含 了 备用 状态 和 回 滴 ， 环 视 是 怎么 实现 的 ?环视 结构 中 的 子 
表达 式 有 自己 的 世界 。 它 也 会 保存 备用 状态 ， 进 行 必要 的 回 滴 。 如 果 整 个 子 表达 式 能 够 成 
功 匹 配 ， 结 果 如 何 呢 ?肯定 型 环视 会 认为 自己 匹配 成 功 ， 而 否定 环视 会 认为 匹配 失败 。 在 
任何 一 种 情况 下 ， 因 为 关注 的 只 是 匹配 存在 与 否 (在 刚才 的 例子 中 ,的确 存在 匹配 )， 此 匹 
配 尝试 所 在 的 “世界 "， 包 括 在 尝试 中 创造 的 所 有 备用 状态 ， 都 会 被 放弃 。 


如 果 环 视 中 的 子 表达 式 无 法 匹配 ， 结 果 如 何 呢 ? 因为 它 只 应 用 到 这 个 “世界 ”中 ， 所 以 回 
溯 时 只 能 选择 当前 环视 结构 中 的 备用 状态 。 也 就 是 说 ， 如 果 正 则 表达 式 发 现 ， 需 要 进一步 
回溯 到 当前 的 环视 结构 的 起 点 以 前 ， 它 就 认为 当前 的 子 表达 式 无 法 匹配 。 对 肯定 型 环视 来 
说 ， 这 就 意味 着 失败 ， 而 对 于 否定 型 环视 来 说 ， 这 意味 着 成 功 。 在 任何 一 种 情况 下 ， 都 没 
有 保留 备用 状态 (如 果 有 ， 那 么 子 表达 式 的 匹配 尝试 就 没有 结束 )， 自 然 也 谈 不 上 放弃 。 


所 以 我 们 知道 ， 只 要 环视 结构 的 匹配 尝试 结束 ， 它 就 不 会 留 下 任何 备用 状态 。 任 何 备 用 状 
态 和 例子 中 肯定 环视 成 功 时 的 情况 一 样 ， 都 会 被 放弃 。 我 们 在 其 他 什么 地 方 看 到 过 放弃 状 
态 ? 当然 是 固化 分 组 和 占有 优先 量词 。 


iji 
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用 肯定 环视 模拟 固化 分 组 


如 果 流 派 本 身 支持 固化 分 组 ， 这 么 做 可 能 有 点 多 此 一 举 ， 但 如 果 流 派 不 支持 固化 分 组 ， 这 
么 做 就 很 有 用 : 如 果 所 使 用 的 工具 支持 肯定 环视 , 同时 可 以 在 肯定 环视 中 使 用 捕获 括号 (大 
多 数 风格 都 支持 ， 但 也 有 些 不 支持 ，Tcl 就 是 如 此 )， 就 能 模拟 实现 固化 分 组 和 占有 优先 量 
ia], '(?>regex) : 可 以 用 '(?= (regex) ) \11 来 模拟 。 举例 来 说 , EGER ' 0 2>\we) ATO (we) ) 


\1:jJ 


环视 中 的 \w+! 是 匹配 优先 的 , 它 会 匹配 尽 可 能 多 的 字符 ,也 就 是 整个 单词 。 因 为 它 在 环视 
结构 中 ， 当 环视 结束 之 后 ， 备 用 状态 都 会 放弃 (和 固化 分 组 一 样 )。 但 与 固化 分 组 不 一 样 的 
是 ， 虽然 此 时 确实 捕获 了 这 个 单词 ， 但 它 不 是 全 局 匹配 的 一 部 分 (这 就 是 环视 的 意义 )。 这 
里 的 关键 就 是 ， 后 面 的 \1, 捕获 的 就 是 环视 结构 捕获 的 单词 ， 而 这 当然 会 匹配 成 功 。 在 这 
里 使 用 \1; 并非 多 此 一 举 ， 而 是 为 了 把 匹配 从 这 个 单词 结束 的 位 置 进 行 下 去 。 


这 个 技巧 比 真正 的 固化 分 组 要 慢 一 些 , 因为 需要 额外 的 时 间 来 重新 匹配 \1, 的 文本 。 不过， 
因为 环视 结构 可 以 放弃 备用 状态 ， 如 果 冒 号 无 法 匹配 ， 它 的 失败 会 来 得 更 快 一 些 。 


多 选 结构 也 是 匹配 优先 的 吧 


Is Alternation Greedy? 


多 选 分 支 的 工作 原理 非常 重要 ， 因 为 在 不 同 的 正则 引擎 中 它们 是 过 然 不 同 的 。 如 果 遇 到 的 
多 个 多 选 分 支 都 能 够 匹配 ， 究 竟 会 选择 哪 一 个 昵 ? 或 者 说 ， 如 果 不 只 一 个 多 选 分 支 能 够 匹 
配 ， 最 后 究竟 应 该 选择 哪 一 个 呢 ? 如果 选择 的 是 匹配 文本 最 长 的 多 选 分 支 ， 有 人 也 许 会 说 
多 选 结构 也 是 匹配 优先 的 ， 如 果 选 择 的 是 匹配 文本 最 短 的 多 选 分 支 ， 有 人 也 许 会 说 它 是 忽 
略 优先 的 ? 那么 (如果 只 能 是 一 个 的 话 ) 究竟 是 哪个 ? 


让 我 们 看 看 Perl、PHP、Java、.NET 以 及 其 他 语言 使 用 的 传统 型 NFA 引擎 。 遇 到 多 选 结构 
时 ， 这 种 引擎 会 按照 从 左 到 右 的 顺序 检查 表达 式 中 的 多 选 分 支 。 拿 正则 表达 式 “(Subject 
IDpate) :小 来 说 ， 遇 到 "Subject1pateij 时 ， 首 先 党 试 的 是 'Subjeccj。 如 果 能 够 匹配 ， 就 转 
而 处 理 接 下 来 的 部 分 (也 就 是 后 面 的 “:…)。 如 果 无 法 匹配 ， 而 此 时 又 有 其 他 多 选 分 支 (就 
是 例子 中 的 pacej) ， 正 则 引擎 会 回溯 来 尝试 它 。 这 个 例子 同样 说 明 ， 正 则 引擎 会 回溯 到 存 
在 尚未 尝试 的 多 选 分 支 的 地 方 。 这 个 过 程 会 不 断 重复 ， 直 到 完成 全 局 匹配 ， 或 者 所 有 的 分 
支 〈 也 就 是 本 例 中 的 所 有 多 选 分 支 ) 都 尝试 穷尽 为 止 。 
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所 以 ,对 于 常见 的 传统 型 NFA 引擎 ,用 "tour1ltoltournament! 来 匹配 "three'cournaments， 
won’ WL, 会 得 到 什么 结果 呢 ? 在 尝试 到 “three* tournaments*won” 时 , 在 每 个 位 置 进行 
的 匹配 尝试 都 会 失败 ， 而 且 每 次 尝试 时 ， 都 会 检查 所 有 的 多 选 分 支 ( 并 且 失 败 )。 而 在 这 个 
位 置 ， 第 一 个 多 选 分 支 tour 能 够 匹配 。 因 为 这 个 多 选 结构 是 正则 表达 式 中 的 最 后 部 分 ， 
tour1 匹 配 结束 也 就 意味 着 整个 表达 式 匹 配 完成 。 其 他 的 多 选 分 支 就 不 会 尝试 了 。 


因此 我 们 知道 ， 多 选 结构 既 不 是 匹配 优先 的 ， 也 不 是 忽略 优先 的 ， 而 是 按 顺 序 排列 的 ， 至 
少 对 传统 型 NFA 来 说 是 如 此 。 这 上 比 匹配 优先 的 多 选 结构 更 有 用 ， 因 为 这 样 我 们 能 够 对 匹配 
的 过 程 进行 更 多 的 控制 一 一 正则 表达 式 的 使 用 者 可 以 用 它 下 令 :“ 先 试 这 个 ， 再 试 那 个 ， 最 
后 试 男 一 个 ， 直 到 试 出 结果 为 止 ”。 


不 过 , 也 不 是 所 有 的 流派 都 支持 按 序 排列 的 多 选 结构 。DFA 和 POSIX NFA 确实 有 匹配 优先 
的 多 选 结构 ， 它 们 总 是 匹配 所 有 多 选 分 支 中 能 匹配 最 多 文本 的 那个 (也 就 是 本 例 中 的 
上 ournament))。 但 是 ， 如 果 你 使 用 的 是 Perl, PHP. NET. java.util.regex, 或 者 其 他 
使 用 传统 型 NFA 的 工具 ， 多 选 结构 就 是 按 序 排列 的 。 


发 气 有 序 多 选 结构 的 价值 


Taking Advantage of Ordered Alternation 


回 过 头 来 看 第 167 W'(\.\a\a(1-9) 2) \a* AVA, 如 果 我 们 明白 ,\.\a\a[1-9]?, 其 实 等 
于 NaN HN. \a\ (1-931, BET AY LAGE BEAK BS EO .\d\dl\.\d\d{1-9)) 
vdxi。{( 这 并 非 必须 的 改动 ,只 是 举例 说 明 )。 这 个 表达 式 与 之 前 的 完全 一 样 吗 ? 如 果 多 选 结 
构 是 匹配 优先 的 ， 那 么 答案 就 是 肯定 的 ， 但 如 果 多 选 结构 是 有 序 的 ， 两 者 就 完全 不 一 样 。 


我 们 来 看 多 选 结构 有 序 的 情形 。 首 先 选 择 和 测试 的 是 第 一 个 多 选 分 支 ， 如 果 能 够 匹配 ， 控 
制 权 就 转移 到 紧 接 的 "6*, 那里。 如 果 还 有 其 他 的 数字 , \a*, 能 够 匹配 它们 , 也 就 是 任何 不 
为 零 的 数字 ， 它 们 是 原来 问题 的 根源 (如 果 读 者 还 记得 ， 当 时 的 问题 就 在 于 ， 这 位 数字 我 
们 只 希望 在 括号 里 匹配 , 而 不 通过 括号 外 面 的 \a*))。 所 以 , 如 果 第 一 个 多 选 分 支 无 法 匹配 ， 
第 二 个 多 选 分 支 同样 无 法 匹配 ， 因 为 二 者 的 片头 是 一 样 的 。 即 使 第 一 个 多 选 结构 无 法 匹配 ， 
正则 引擎 仍然 会 对 第 二 个 多 选 分 支 进行 徒劳 的 过 试 。 


不 过 ， 如 果 交 换 多 选 分 支 的 顺序 ， 变 成 (\.\aval1-9]1\.\ava)\da*i， 它 就 等 价 于 匹配 优 
先 的 "ava[1-91?)\dri。 如 果 第 一 个 多 选 分 支 结 尾 的 [1-9] 匹 配 失败 ， 第 二 个 多 选 分 
支 仍然 有 机 会 成 功 。 我 们 使 用 的 仍然 是 有 序 排列 的 多 选 结构 ， 但 是 通过 变换 顺序 ， 实 现 了 
匹配 优先 的 功能 。 
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第 一 次 拆 分 [1-91? 1 成 两 个 多 选 分 支 时 ， 我 们 把 较 短 的 分 支 放 在 了 前 面 ， 得 到 了 一 个 不 具 
备 匹配 优先 功能 的 .?,。 在 这 个 具体 的 例子 中 ， 这 么 做 没有 意义 ， 因 为 如 果 第 一 个 多 选 分 支 
不 能 匹配 ， 第 二 个 肯定 也 无 法 匹配 。 我 经 常 看 到 这 样 没有 意义 的 多 选 结构 ， 对 传统 型 NFA 
来 说 ， 这 肯定 不 对 。 我 曾 看 到 有 一 本 书 以 'a( (ab)*1b*) 为 例 讲解 传统 型 NFA 正则 表达 式 
的 括号 。 这 个 例子 显然 没有 意义 ， 因 为 第 一 个 多 选 分 支 ab) * ,永远 也 不 会 匹配 失败 ， 所 以 
后 面 的 其 他 多 选 分 支 毫 无 意义 。 你 可 以 继续 添加 : 


lar ((ab)*|b*].* |partridge*in’a*pear*tree| [a-z}); 
a A 


这 个 正则 表达 式 的 意义 都 不 会 有 丝毫 的 改变 。 要 记 住 的 是 ， 如 果 多 选 分 支 是 有 序 的 ， 而 能 
够 匹配 同样 文本 的 多 选 分 支 又 不 只 一 个 ， 就 要 小 心安 排 多 选 分 支 的 先后 顺序 。 


有 序 多 选 结构 的 陷阱 


有 序 多 选 分 支 容许 使 用 者 控制 期 望 的 匹配 ， 因 此 极为 便利 ， 但 也 会 给 不 明 就 里 的 人 造成 麻 
烦 。 如 果 需 要 匹配 “Jan 31” 之 类 的 日 期 我 们 需要 的 就 不 是 简单 的 Jan [0123]{0-9]1， 
因为 这 样 的 表达 式 能 够 匹配 “Jan*00” 和 “Jan*39” 这 样 的 日 期 ， 却 无 法 匹配 “Jan*7'。 


一 种 办 法 是 把 日 期 部 分 拆 开 。 用 '0?{1-9] 匹配 可 能 以 0 开头 的 前 九天 的 日 期 ,用 '{12) (0-9), 
处 理 十 号 到 二 十 九 号 ， 用 '3[01] 1 处 理 最 后 两 天 。 把 上 面 这 些 连 起 来 ， 就 是 Jar 
(0211-9] 1[121{0~9] 13(01] i, 


如 果 用 这 个 表达 式 来 匹配 “Jan 31 is Dad's birthday"， 结 果 如 何 呢 ? 我 们 和 希望 获得 的 
当然 是 “Jan 31"， 但 是 有 序 多 选 分 支 只 会 捕获 “Jan 3’, AES? 在 匹配 第 一 个 多 选 分 
支 0?{1-9] 时 , 前 面 的 "0?, 无 法 匹配 , 但 是 这 个 多 选 分 支 仍然 能 够 匹配 成 功 , 因为 '[1-9]， 
能 够 匹配 “3 ` 。 因 为 此 多 选 分 支 位 于 正则 表达 式 的 末尾 ，、 所 以 匹配 到 此 完成 。 


如 果 我 们 重新 安排 多 选 结构 的 顺序 环视 ， 把 能 够 匹配 的 数字 最 短 的 放 到 最 后 ， 这 个 问题 就 
解决 了 : ‘Jan*([12] [0-9] 43[01]10?[1-9]),。 


另 一 种 办 法 是 使 用 "yan'(311(123]101[012]?[1-9])。 但 这 也 要 求 我 们 仔细 地 安排 多 选 分 
支 的 顺序 避免 问题 。 还 有 一 种 办 法 是 ‘Jan*(0[1-9]1[12] [0-9] ?43[01]?1[4-9])1, 这 样 不 
论 顺 序 环视 如 何 都 能 获得 正确 结果 。 比 较 和 分 析 这 3 个 不 同 的 表达 式 ， 会 有 很 多 发 现 (我 
会 给 读者 一 些 时 间 来 想 这 个 问题 ， 尽 管 下 一 页 的 补充 内 容 会 有 所 帮助 )。 


Ei 
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拆 分 日 期 的 几 种 办 法 


下面 几 种 办 法 都 可 以 用 来 解决 第 176 页 的 日 期 匹配 问题 正则 表达 式 中 的 元 素 能 
| 匹配 日 历 中 对 应 元 素 的 部 分 。 


joa 02 03 04 05 06 07 08 os| 
Phi 12 13 14.25 16 17 18 19| 





' 32 |G | CEES 





2 © Oe 
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C — 





NFA, DFA 和 POSIX 


NFA, DFA, and POSIX 


最 左 最 长 规则 


The Longest-Leftmost ” 


之 前 我 们 说 过 : 如 果 传 动 装置 在 文本 的 某 个 特定 位 置 启动 DFA 引擎 ， 而 在 此 位 置 又 有 一 个 
或 多 个 匹配 的 可 能 ，DFA 就 会 选择 这 些 可 能 中 最 长 的 。 因 为 在 所 有 同样 从 最 左边 开始 的 可 
能 的 匹配 文本 中 它 是 最 长 的 ， 所 以 叫 它 “ 最 左 最 长 的 〈longestleftmost)” 匹 配 。 


绝对 最 长 


这 里 说 的 “最 长 ”不 限于 多 选 结 构 。 看 看 NFA 如 何 用 "one(self)?(selfsufficient)?， 
来 匹配 字符 串 oneselfsufficient, NFA 首先 匹配 'onej， 然 后 是 匹配 优先 的 !(self) 2), 

留 下 (selfsufficient)?1 来 匹配 sufficient。 它 显然 无 法 匹配 , 但 整个 表达 式 并 不 会 因 
此 匹配 失败 , 因为 这 个 元 素 不 是 必须 匹配 的 。 所 以 , 传统 型 NFA 返回 oneselfsufficient, 
放弃 没有 尝试 的 状态 (POSIX NFA 的 情况 与 此 不 同 ， 我 们 稍 后 将 会 看 到 ).。 
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与 此 相反 ，DFA 会 返回 更 长 的 结果 :oneselfsufficient。 如 果 最 开始 的 " (self)> | 因为 
某 些 原因 无 法 匹配 ，NFA 也 会 返回 跟 DFA 一 样 的 结果 ， 因 为 self)? ZEWN, 
(selfsufficient)2) 就 能 成 功 匹 配 。 传 统 型 NFA 不 会 这 样 , 但 是 DFA 则 会 这 样 ， 因 为 会 
选择 最 长 的 可 能 匹配 。DEFA 同时 记录 多 个 匹配 ， 在 任何 时 候 都 清楚 所 有 的 匹配 可 能 ， 所 以 
它 能 做 到 这 一 点 。 





我 选 这 个 简单 的 例子 是 因为 它 很 容易 理解 ， 但 是 我 希望 读者 能 够 明白 ， 这 个 问题 在 现实 中 
很 重要 。 举 例 来 说 ,如 果 和 希望 匹配 连续 多 行文 本 ,常见 的 情况 是 ， 一 个 逻辑 行 (logical line) 
可 以 分 为 许多 现实 的 行 ， 每 一 行 以 反 斜 线 结尾 ， 例 如 : 


SRC=array.c builtin.c eval.c field.c gawkmisc.c io.c main.c \ 
missing.c msg.c node.c re.c version.c 


读者 可 能 希望 用 人 \w+= .* 来 匹配 这 种 “var=value” 的 数据 , 但 是 正则 表达 式 无 法 识别 连续 
的 行 ( 在 这 里 我 们 假设 点 号 无 法 匹配 换行 符 )。 为 了 匹配 多 行 ， 读 者 可 能 需要 在 表达 式 最 后 
添加 和 (\\\n.*) ,得 到 个 \w+=.*(\\\n.*)*。 显然 , 这 意味 着 任何 后 继 的 逻辑 行 都 能 匹配 ， 
只 要 他 们 以 反 斜 线 结尾 。 这 看 起 来 设 错 ， 但 在 传统 型 NFA 中 行 不 通 。. ”到 达 行 尾 的 时 候 ， 
已 经 匹配 了 反 斜 线 ， 而 表达 式 中 后 面 的 部 分 不 会 强迫 进行 回溯 (了 152)。 但 是 ，DFA 能 够 
匹配 更 长 的 多 行文 本 ， 因 为 它 确实 是 最 长 的 。 


如 果 能 够 使 用 忽略 优先 的 量词 ， 也 许可 以 考虑 用 它们 来 解决 问题 ， 例 如 “\w+=.*?(\\Vn， 
*?)*j。 这 样 点 号 每 次 实际 匹配 任何 字符 之 前 ， 都 需要 测试 转 义 的 换行 符 部 分 ， 这 样 \\, 就 
能 够 匹配 换行 符 之 前 的 反 斜 线 。 不 过 这 也 行 不 通 。 如 果 忽 略 优先 量词 匹配 某 些 可 选 的 部 分 ， 
必然 是 在 全 局 匹配 必须 的 情况 下 发 生 。 但 是 在 本 例 中 ，=, 后 面 的 所 有 部 分 都 不 是 必须 匹配 
的 ， 所 以 没有 东西 会 强迫 忽略 优先 量词 匹配 任何 字符 。 忽 略 优先 的 正则 表达 式 只 能 匹配 
“SRC= ， 这 显然 不 是 我 们 期 望 的 结果 。 


这 个 问题 还 有 其 他 的 解决 办 法 ， 我 们 会 在 下 一 章 继续 这 个 问题 (7186), 


POSIX 和 最 左 最 长 规则 


POSIX and the Longest-Leftmost Rule 


POSIX 标准 规定 ， 如 果 在 字符 串 的 某 个 位 置 存在 多 个 可 能 的 匹配 ， 应 当 返 回 的 是 最 长 的 匹 
Ac. 


POSIX 标准 文档 中 使 用 了 “最 左边 开始 的 最 长 匹配 (longest of the leftmost)”, EFFZ AM 


if 
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定 必须 使 用 DFA， 那 么 ， 如 果 希 望 使 用 NFA KKE POSIX, 程序 员 应 该 如 何 做 ? 如 果 你 希 
望 执 行 POSIX NFA， 那 么 必须 找到 完整 的 oneselfsufficient 和 所 有 的 连续 行 ， 虽 然 这 
个 结果 是 违反 NFA“ 天 性 的。 


传统 型 NFA 引擎 会 在 第 一 次 找到 匹配 时 停 下 来 ， 但 是 如 果 让 它 继续 尝试 其 他 分 支 (状态 ) 
会 怎样 呢 ? 每 次 匹配 到 表达 式 的 末尾 时 ， 它 都 会 获得 另 一 个 可 能 的 匹配 结果 。 如 果 所 有 的 
分 支 都 穷尽 了 ， 就 能 从 中 选择 最 长 的 匹配 结果 。 这 样 ， 我 们 就 得 到 了 一 台 POSIX NFA。 


在 上 面 的 例子 中 ，NFA 匹配 (selft)?! 时 保存 了 一 个 备用 状态 : one(tself)? (selfsuf- 
ficient) ?1 在 one selfsufficienti, 传统 型 NFA 在 oneselfsufficient 之 后 停止 匹配 ， 
而 POSIX NFA 仍然 会 继续 检查 余下 的 所 有 状态 , 最 终 得 到 那个 更 长 的 结果 (其 实 是 最 长 的 ) 


oneselfsufficient, 
sd 








第 7 章 有 一 个 例子 ， 可 以 让 Perl 模拟 POSIX 的 做 法 ， 返 回 最 长 的 匹配 字符 (225)。 


速度 和 效率 


Speed and Efficiency 


如 果 传 统 型 NFA 的 效率 是 我 们 应 当 关注 的 问题 (对 提供 回溯 的 传统 型 NFA 来 说 , 这 确实 是 
-一 个 问题 ) ABZ POSIX NFA 的 效率 就 更 值得 关注 ,因为 它 需 要 进行 更 多 的 回 湖 。POSIX 
NFA 需要 尝试 正则 表达 式 的 所 有 变 体 (译注 4)。 第 6 章 告 诉 我 们 ， 正 则 表达 式 写 得 精 糕 的 
话 ， 匹 配 的 效率 就 会 很 低 。 


DFA 的 效率 


文本 主导 的 DFA 巧妙 地 避免 了 回 湖 造 成 的 效率 问题 。DFA 同时 记录 了 所 有 可 能 的 匹配 ， 这 
样 来 提高 速度 。 它 是 如 何 做 到 这 一 切 的 呢 ? 


DFA 引擎 需要 更 多 的 时 间 和 内 存 ， 它 第 一 次 遇见 正则 表达 式 时 ， 在 做 出 任何 尝试 之 前 会 用 
比 NFA 详细 得 多 的 (也 是 截然 不 同 的 ) 办 法 来 分 析 这 个 正则 表达 式 。 开 始 尝试 匹配 的 时 候 ， 
它 已 经 内 建 了 一 张 路 线 图 (map) ， 描 述 “ 遇 到 这 个 和 这 个 字符 ， 就 该 选择 这 个 和 那个 可 能 
的 匹配 "。 字 符 串 中 的 每 个 字符 都 会 按照 这 张 路 线 图 来 匹配 。 


有 时 候 ， 构 造 这 张 路 线 图 可 能 需要 相当 的 时 间 和 内 存 ， 不 过 只 要 建立 了 针对 特定 正则 表达 
式 的 路 线 图 ， 结 果 就 可 以 应 用 到 任意 长 度 的 文本 。 这 就 好 像 为 你 的 电动 车 充电 一 样 。 首 先 ， 
你 得 把 车 停 到 车 库 里 面 ， 插 上 电源 等 待 一 段 时 间 ， 但 只 要 发 动 了 汽车 ， 清 洁 的 能 源 就 会 源 
源 而 来 。 


译注 4: permutation ， 指 一 个 正则 表达 式 能 够 匹配 的 各 种 形式 的 文本 。 


iM 
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NFA 理论 与 现实 


NFA (译注 5) 真正 的 数学 和 计算 学 意义 是 不 同 于 通常 说 的 “NFA 引 学 ”的 。 在 理论 
上 , NFA 和 DFA 引擎 应 该 匹配 完全 一 样 的 文本 , 提供 完全 一 样 的 功能 。 但 是 在 实际 中 ， 
因为 人 们 需要 更 强 的 功能 ， 更 具 表 达能 力 的 正则 表达 式 ， 它 的 语意 发 生 了 变化 。 反 向 
引用 就 是 一 例 。 


DFA 引 党 的 设计 方案 就 排除 了 反 向 引用 ,但 是 对 于 真正 (数学 意义 上 的 ) 的 NFA 引 学 
来 说 ， 提 供 反 向 引用 的 支持 只 需要 很 小 的 改动 。 这 样 我 们 就 得 到 了 一 个 功能 更 强大 的 
LIFR, EZEN (nonregular) 的 (数学 意义 上 的 ) 。 这 是 什么 意思 呢 ? Kit, 


你 不 应 该 继续 叫 它 “NEFA ， 而 是 “不 正则 表达 式 (nonregular expressions)”， 因 为 这 个 
名 词 才 能 描述 (在 数学 意义 上 ) 新 的 情形 。 但 是 实际 没 人 这 么 做 ， 所 以 这 个 名 字 就 这 
样 流传 下 来 ， 虽 然 实现 方式 都 不 再 是 (数学 意义 上 的 ) NFA, 

这 对 用 户 有 什么 意义 ? 显然 没有 什么 意义 。 作 为 用 户 ， 你 不 需要 关心 它 是 正则 还 是 非 
正则 ， 而 只 需要 知道 它 能 为 你 做 什么 〈 也 就 是 本 章 的 内 容 ) 。 

对 那些 布 望 了 解 更 多 的 正则 表达 式 的 理论 的 人 ， 经 典 的 计算 机 科学 教学 文本 是 ，Aho、 
Sethi, Ullman 的 Compilers—Principles, Techniques, and Tools (Addison-Wesley, 1986) 
的 第 3 章 ， 通 常 说 的 “恐龙 蔬 "， 因 为 它 的 封面 。 更 确切 地 说 ， 这 是 一 条 “ 红 龙 ",“ 绿 
龙 ” 指 的 是 它 的 前 任 ，Aho 和 Ullman 的 Principles of Compiler Design. 





小 结 : NFA 与 DFA 的 比较 


Summary: NFA and DFA in Comparison 


NFA 与 DFA 各 有 利弊 。 


DFA 与 NFA: 在 预 编译 阶段 (Pre-use compile) 的 区 别 


在 使 用 正则 表达 式 搜索 之 前 ， 两 种 引擎 都 会 编译 表达 式 ， 得 到 一 套 内 化 形式 ， 适 应 各 自 的 
匹配 算法 。NFA 的 编译 过 程 通常 要 快 一 些 , 需要 的 内 存 也 更 少 一 些 。 传 统 型 NFA 和 POSIX 
NFA 之 间 并 没有 实质 的 差别 。 


译注 5: 此 处 NFA 指 的 是 非 确 定型 有 穷 自动 机 。 


if 
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DFA 5 NFA. 匹配 速度 的 差别 


对 于 “正常 ”情况 下 的 简单 文本 匹配 测试 ， 两 种 引擎 的 速度 差不多 。 一 般 来 说 ，DFA 的 速 
度 与 正则 表达 式 无 关 ， 而 NFA 中 两 者 直接 相关 。 


传统 的 NFA 在 报告 无 法 匹配 以 前 ， 必 须 尝 试 正则 表达 式 的 所 有 变 体 。 这 就 是 为 什么 我 要 用 
整 章 (第 6 章 ) 来 论述 提高 NFA 表达 式 匹配 速度 的 技巧 。 我 们 将 会 看 到 ， 有 时 候 一 个 NFA 
永远 无 法 结束 匹配 。 传 统 型 NFA 如 果 能 找到 一 个 匹配 ， 肯 定 会 停止 匹配 。 


相反 ，POSIX NFA 必须 尝试 正则 表达 式 的 所 有 变 体 ， 确 保 获 得 最 长 的 匹配 文本 ， 所 以 如 果 
匹配 失败 ， 它 所 花 的 时 间 与 传统 型 NFA 一 样 (有 可 能 很 长 )。 因 此 ， 对 POSIX NFA 来 说 ， 
表达 式 的 效率 问题 更 为 重要 。 


在 某 种 意义 上 ， 我 说 得 绝对 了 一 点 ， 因 为 优化 措施 通常 能 够 减少 获得 匹配 结果 的 时 间 。 我 
们 已 经 看 到 , 优化 引擎 不 会 在 字符 串 开 头 之 外 的 任何 地 方 尝 试 带 “, 锚 点 的 表达 式 , 我们 会 
在 第 6 章 看 到 更 多 的 优化 措施 。 


DFA 不 需要 做 太 多 的 优化 ， 因 为 它 的 匹配 速度 很 快 ， 不 过 最 重要 的 是 ，DFA 在 预 编 译 阶段 
所 作 的 工作 提供 的 优化 效果 ， 要 好 于 大 多 数 NFA 引擎 复杂 的 优化 措施 。 


现代 DFA 引擎 经 常会 尝试 在 匹配 需要 时 再 进行 预 编译 ， 减 少 所 需 的 时 间 和 内 存 。 因 为 应 用 
的 文本 各 异 ， 通 常情 况 下 大 部 分 的 预 编 译 都 是 白费 工夫 。 因 此 ， 如 果 在 匹配 过 程 确实 需要 
的 情况 下 再 进行 编译 ， 有 时 候 能 节省 相当 的 时 间 和 内 存 (技术 术语 就 是 “延迟 求 值 (lazy 
evaluation)" ) 。 这 样 ， 正 则 表达 式 、 待 匹配 的 文本 和 匹配 速度 之 间 就 建立 了 某 种 联系 。 


DFA 与 NFA: 匹配 结果 的 差别 


DFA (或 者 POSIX NFA) 返回 最 左边 的 最 长 的 匹配 文本 。 传统 型 NFA 可 能 返回 同样 的 结果 ， 
当然 也 可 能 是 别 的 文本 。 针 对 某 一 型 具体 的 引擎 ， 同 样 的 正则 表达 式 ， 同 样 的 文本 ， 总 是 
得 到 同样 的 结果 ， 在 这 个 意义 上 来 说 ， 它 不 是 “随机 ”的 ， 但 是 其 他 NFA 引擎 可 能 返回 不 
一 样 的 结果 。 事 实 上 ， 我 见 过 的 所 有 传统 型 NFA 返回 的 结果 都 是 一 样 的 ， 但 并 没有 任何 标 
准 来 硬性 规定 。 


Hi 
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DFA 5 NFA: 能 力 的 差异 


NFA 引擎 能 提供 一 些 DFA 不 支持 的 功能 ， 例 如 : 


。 ”捕获 由 括号 内 的 子 表达 式 匹 配 的 文本 。 相 关 的 功能 是 反 向 引用 和 后 匹配 信息 (after- 
match information) ， 它 们 描述 匹配 的 文本 中 每 个 括号 内 的 子 表达 式 所 匹配 文本 的 位 置 。 


。 环视， 以 及 其 他 复杂 的 零 长 度 确认 ( 注 8) (7133). 


°. ” 非 匹 配 优 先 的 量词 ， 以 及 有 序 的 多 选 结构 。DFA 很 容易 就 能 支持 选择 最 短 的 匹配 文本 
(尽管 因为 某 些 原因 , 这 个 选项 似乎 从 未 向 用 户 提 供 过 ), 但 是 它 无 法 实现 我 们 讨论 过 
的 局 部 的 忽略 优先 性 和 有 序 的 多 选 结构 。 


。 ”占有 优先 量词 (7142) 和 固化 分 组 (7139), 


RA DFA 的 速度 和 NFA 的 功能 : 正则 表达 式 的 终极 境界 


我 已 经 多 次 说 过 ，DFA 不 能 支持 捕获 括号 和 反 向 引用 。 这 无 疑 是 对 的 ， 但 这 并 不 是 说 ， 
我 们 不 能 组 合 不 同 的 技术 ， 以 达到 正则 表达 式 的 终极 境界 。180 页 的 补充 内 容 描 述 了 
NFA 为 了 追求 更 强大 的 功能 , 如 何 脱离 了 纯 理论 的 道路 和 限制 , DFA 的 情况 也 是 如 此 。 
受 自身 结构 的 限制 ，DFA 进行 这 种 突破 更 加 困难 ， 但 并 非 不 可 能 。 


GNU grep 采取 了 一 种 简单 但 有 效 的 策略 。 它 尽 可 能 多 地 使 用 DFA, 在 需要 反 向 引用 的 
时 候 ， 才 切换 到 NFA。GNU awk 的 办 法 也 差不多 在 进行 “是 否 匹 配 ” 的 检查 时 ， 


w RA GNU grep 的 DFA 引擎 ， 如 果 需 要 知道 具体 的 匹配 文本 的 内 容 ， 就 采用 不 同 的 
引 掌 。 这 里 的 “不 同 的 引 掌 ”就 是 NFA， 利 用 自己 的 gensub 函数 ，GNU awk 能 够 很 
方便 地 提供 捕获 括号 。 

Tel 的 正则 引擎 由 Henry Spencer (你 或 许 记 得 ， 这 个 人 在 正则 表达 式 的 早期 发 展 和 流 
行 中 扮演 了 重要 的 角色 ) FA, CHARS MH, Tel 引擎 有 时 候 像 NFA 一 一 它 支持 
环视 、 捕 获 括 号 、 反 向 引用 和 忽略 优先 量词 。 但 是 ， 它 也 确实 能 提供 POSIX 的 最 左 最 
长 匹配 (177)， 但 没有 我 们 将 在 第 6 章 看 到 的 NFA 的 问题 。 这 点 确实 很 棒 。 





注 8: lex 提供 的 trailing context 等 价 于 正则 表达 式 末 尾 的 寒 长 度 商定 环视 ,但 它 并 不 能 应 用 到 来 
AZ Sp ORAL AS FP 


ii 
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尽管 存在 限制 , 但 简单 的 DFA 和 NFA 引擎 都 很 容易 理解 和 实现 。 对 效率 (包括 时 间 和 空间 
效率 ) 和 增强 性 能 的 追求 ， 令 实现 越 来 越 复杂 。 


用 代码 长 度 来 衡量 的 话 ， 支 持 NFA 正则 表达 式 的 ed Version 7 (1979 年 1 月 发 布 ) 只 有 不 
到 350 行 的 C 代码 (所 以 ， 整 个 grep 只 有 区 区 478 行 代码 )。Henry Spencer1986 年 免费 提 
供 的 Version 8 正则 程序 差不多 有 1900 行 C 代码 , 1992 年 Tom Lord 的 POSIX NFA package 
rx (被 GNU sed 和 其 他 工具 采用 ) 长 达 9 700 行 。 


ATHA DFA 和 NFA 的 优点 ，GNU egrep Version 2.4.2 使 用 了 两 个 功能 完整 的 引擎 (ER 
多 8 900 行 代码 )，Tcl 的 DFA/NFA 混合 引擎 (请 看 上 一 页 的 补充 内 容 ) 更 是 长 达 9 500 行 。 


某 些 实现 很 简单 ， 但 这 并 不 是 说 它们 支持 的 功能 有 限 。 我 曾经 想 要 用 Pascal 的 正则 表达 式 
来 处 理 某 些 文本 。 从 毕业 以 后 我 就 没 用 过 Pascal 了 ， 但 是 写 个 简单 的 NFA 引擎 并 不 需要 太 
多 工夫 。 它 并 不 追求 花哨 ， 也 不 追求 速度 ， 但 是 提供 了 相对 全 面 的 功能 ， 非 常 实用 。 


总 结 


Summary 


如 果 你 希望 一 遍 就 能 读 懂 本 章 的 所 有 内 容 ， 大 概 得 做 点 准备 。 至 少 ， 这 些 东 西 不 那么 容易 
理解 。 我 花 了 些 时 间 才 理解 它 ， 花 了 更 长 的 时 间 才 真正 弄 懂 。 我 希望 这 章 简要 的 讲解 能 够 
降低 读者 理解 的 难度 。 我 尝试 过 简单 地 解释 ， 同 时 不 要 调和 信 太 简单 的 陷阱 (不 幸 的 是 ， 太 
过 直 白 的 解释 总 是 妨碍 了 真正 的 理解 )。 本 章 有 许多 这 样 的 陷阱 ， 所 以 我 在 其 中 安排 了 许多 
对 其 他 页 的 引用 ， 在 下 面 的 摘要 中 ， 读 者 可 以 很 快 地 找到 其 他 的 内 容 。 


实现 正则 表达 式 匹 配 引 擎 有 两 种 常见 的 技术 ， 一 种 是 “表达 式 主导 的 NFA” (7153), 3— 
种 是 “文本 主导 的 DEFA”(=155)。 它 们 的 全 称 见 第 156 页 。 
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这 两 种 技术 ， 结 合 POSIX 标准 ， 可 以 按照 实用 标准 划分 3 种 正则 引擎 : 
。 ”传统 型 NFA (汽油 驱动 ， 功 能 强大 )。 

e POSIX NFA (汽油 驱动 ， 符 合 标准 )。 

°> DFA (不 一 定 符合 POSIX) (电力 驱动 ， 运 转 稳定 )。 


为 了 对 手头 的 工具 有 个 大 致 的 了 解 ， 你 需要 知道 它 采 用 的 是 什么 引擎 ， 以 对 正则 表达 式 做 
相应 的 调 校 。 最 常见 的 引擎 就 是 传统 型 NFA， 其 次 是 DFA。 表 4-1 (7145) 列 出 了 若干 常 
用 工具 及 它们 使 用 的 引擎 类 型 ，“ 测 试 引 擎 的 类 型 ”( 了 146) 给 出 了 测试 引擎 类 型 的 方法 。 


对 于 任何 引擎 来 说 ， 都 有 一 条 通用 的 规则 : 开始 位 置 靠 先 的 匹配 文本 优先 于 开始 位 置 靠 后 
的 匹配 文本 。 因 为 “传动 机 构 ” 会 从 前 往 后 在 文本 的 各 个 位 置 展开 尝试 (148)。 


对 于 从 某 个 位 置 开始 的 匹配 : 
文本 主导 的 DFA 引擎 


寻找 可 能 的 最 长 的 匹配 文本 。 不 再 介绍 (177)。 稳 定 、 速 度 快 (179)， 讲 解 起 来 
很 麻烦 。 


表达 式 主导 的 NFA 引擎 


匹配 过 程 中 可 能 需要 “反复 尝试 (work through)”, NFA 匹配 的 灵魂 是 回溯 (7157, 
162)。 控 制 匹配 过 程 的 元 字符 :标准 量词 ( 星 号 等 等 ) 是 匹配 优先 的 (7151), Hie 
量词 是 忽略 优先 或 者 占有 优先 的 (169)。 在 传统 型 NFA 中 ， 多 选 结构 是 有 序 排 列 的 
(7174), 4£ POSIX NFA 中 是 匹配 优先 的 。 


POSIX NFA 必须 找到 最 长 的 匹配 文本 。 但 是 ， 匹 配 并 不 难 理解 ， 只 须 考虑 效率 (第 6 
章 的 问题 )。 


传统 型 NFA 控制 能 力 最 强 的 正则 引擎 ,因此 使 用 者 可 以 使 用 该 引擎 的 表达 式 主导 性 质 
来 精确 控制 匹配 过 程 。 


理解 本 章 的 概念 和 练习 是 书写 正确 而 高 效 的 正则 表达 式 的 基础 ， 这 也 是 接 下 来 两 章 的 主题 。 
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Practical Regex Techniques 


现在 我 们 已 经 掌握 了 编写 正则 表达 式 所 需 的 基本 知识 ， 我 希望 在 更 复杂 的 环境 中 应 用 这 些 
知识 来 处 理 更 复杂 的 问题 。 每 个 正则 表达 式 都 必须 在 下 面 两 个 方面 求 得 平衡 : 准确 匹配 期 
望 匹配 的 内 容 ， 忽 略 不 期 望 匹 配 的 字符 。 我 们 已 经 看 过 许多 例子 都 说 明 ， 如 果 应 用 得 当 ， 
匹配 优先 非常 有 用 ， 但 如 果 不 够 小 心 ， 也 可 能 带 来 麻烦 ， 在 本 章 我 们 还 将 看 到 许多 例子 。 


NFA 引擎 还 需要 平衡 另外 一 个 因素 : 这 也 是 下 一 章 的 主题 。 设 计 精 糕 的 正则 表达 式 


一 即使 可 以 认为 没 犯错 误 Se 时 以 让 








里 HTML 的 实例 中 吸取 知识 。 原 因 在 
i 而 且 还 是 一 种 艺术 (art)。 它 的 
TE; 用 这 些 例 子 告诉 读者 ， 自 己 在 
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正则 表达 式 的 平衡 法 则 


Regex Balancing Act 


好 的 正则 表达 式 必须 在 这 些 方面 求 得 平衡 : 
。 ”只 匹配 期 望 的 文本 ， 排 除 不 期 望 的 文本 。 
。 ”必须 易于 控制 和 理解 。 


。 ”如 果 使 用 NFA 引擎 ， 必 须 保证 效率 (如 果 能 够 匹配 ， 必 须 很 快 地 返回 匹配 结果 ， 如 宁 
不 能 匹配 ， 应 该 在 尽 可 能 短 的 时 间 内 报告 匹配 失败 ) 。 


这 些 方 面 常常 是 与 具体 文本 相关 的 。 如 果 我 只 使 用 命令 行 ， 只 需要 快速 地 grep 某 些 东 西 ， 
可 能 不 会 过 分 关心 匹配 的 准确 性 ， 通 常 也 不 会 花 太 多 精力 来 调 校 。 我 不 在 平 多 花 点 时 间 来 
手工 排查 ， 因 为 我 能 够 迅速 地 在 输出 中 找到 自己 需要 的 内 容 。 但 是 ， 如 果 处 理 重要 的 程序 ， 
就 需要 花费 时 间 精 力 来 保证 正确 性 : 如 果 需 要 ， 正 则 表达 式 也 可 能 很 复杂 。 这 些 因素 都 需 
要 权衡 。 


即使 使 用 同样 的 程序 ， 效 率 也 是 身 具 体 胸 本 相 淆 的。 如 果 是 NEA ， 用 “-(Gisplayl 
geometry !cemapi + |quick24¢ random | yaw) $j JAA RITEN GARR ASHER 
ARBRE, AAS US, BnR ERPF REN E (可 能 只 是 在 程序 开 
始 的 时 候 运行 若干 次 )， 即 使 所 需 时 间 比 正常 的 长 100 倍 也 不 要 紧 ， 因 为 这 时 候 效率 并 不 是 
问题 。 但 是 ， 如 果 要 逐 行 检查 很 大 的 文 伸 ,- 低 效率 的 程序 运行 起 来 会 让 你 痛苦 不 堪 。 


若干 简单 的 例子 


A Few Short Examples 


匹配 连续 行 ( 续 前 ) 


Continuing with Continuation Lines 


继续 前 一 章 中 匹配 连续 行 的 例子 (7178), 我 们 发 现 (在 传统 型 NFA 中 使 用 “\w+=.*(\\\n， 
2} ®) 并 不 能 匹配 下 面 的 两 行文 本 : 


SRC=array.c builtin.c eval.c field.c gawkmisc.c io.c main.c\ 
missing.c msg.c node.c re.c version.c 


问题 在 于 , BA! . +) A CRA RMR, 这 样 '(\\\n.*)*, 就 不 能 按照 预期 匹配 反 斜 
线 了 。 所 以 ， 本 章 出 现 的 第 一 条 经 验 就 是 ;如果 不 需要 点 号 匹配 反 斜 线 ， 就 应 该 在 正则 表 
达 式 中 做 这 样 的 规定 。 我们 可 以 把 每 个 点 号 替换 成 '[^\n\\]; (请 注意 ，\n 包含 在 排除 性 字 
符 组 中 。 你 应 该 记得 ， 原 来 的 正则 表达 式 的 假设 之 一 就 是 ， 点 号 不 会 匹配 换行 符 ， 我 们 也 
不 希望 它 的 替代 品 能 够 匹配 换行 符 119 页 )。 
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于 是 ， 我 们 得 到 ， 


laws [^An A] AAA [^in] *) 
=, a 


它 确实 能 够 匹配 连续 行 ， 但 因此 也 产生 了 一 个 新 的 问题 : 这 样 反 斜 线 就 不 能 出 现在 一 行 的 
非 结尾 位 置 。 如 果 需 要 匹配 的 文本 中 包含 其 他 的 反 斜 线 ， 这 个 正则 表达 式 就 会 出 问题 。 现 
在 我 们 假设 它 会 包含 ， 所 以 需要 继续 改进 正则 表达 式 。 


迄今 为 止 ， 我 们 的 思路 都 是 ,“ 匹 配 一 行 ， 如 果 还 有 连续 行 ， 就 继续 匹配 "。 现 在 换 另 一 种 
思路 ， 这 种 思路 我 觉得 通常 都 会 奏效 : 集中 关注 在 特定 时 刻 真 正 容 许 匹 配 的 字符 。 在 匹配 
一 行文 本 时 ， 我 们 期 望 匹配 的 要 么 是 普通 〈 除 反 斜 线 和 换行 符 之 外 ) 字符 ， 要 么 是 反 斜 线 
与 其 他 任何 字符 的 结合 体 。 在 点 号 通 配 模式 中 , \ 八 .能 匹配 反 斜 线 加 换行 符 的 结合 体 。 





所 以 , 正则 表达 式 就 变 成 了 “\w+=([^\n\\]IN\.)s， 在 点 号 通 配 模式 下 。 因 为 开头 是 
如 果 需 要 ， 可 能 得 使 用 增强 的 文本 行销 点 匹配 模式 (7112), 


但 是 ， 这 个 答案 仍然 不 够 完美 一 一 我 们 会 在 下 一 章 讲 解 效 率 问题 时 再 次 看 到 它 (7270), 


匹配 卫 地 址 


Matching an IP Address 


来 看 个 复杂 点 的 例子 ,匹配 一 个 卫 (Internet Protocol， 因 特 网 协议 ) 地 址 : 用 点 号 分 开 的 四 
个 数 ， 例 如 1.2.3.4。 通 党 情况 下 ， 每 个 数 都 有 三 位 ， 例 如 001.002.003.004。 你 可 能 会 
想到 用 [0-9]*\.[0-9]*\.[0-9]*\.[0-9]*) 从 文本 中 提取 一 个 IP 地址 ， 但 是 这 个 表达 式 
显然 不 够 精致 ， 它 甚至 会 匹配 ‘and then . . ...?”'。 仔 细 看 看 就 会 发 现 ， 这 个 表达 式 甚至 
不 需要 匹配 任何 数字 一 一 它 只 需要 三 个 点 号 (当然 也 可 能 包括 其 间 的 数字 )。 


为 解决 这 个 问题 ， 我 们 首先 把 星 号 改 成 加 号 ， 因 为 我 们 知道 ， 每 一 段 必 须 有 至 少 一 位 数字 。 
为 确保 整个 字符 串 的 内 容 就 是 一 个 下 地 址 ， 我 们 可 以 在 首尾 加 上 '“.. .$,， 于 是 我 们 得 到 : 


fA[Q0-9]+\.[0-9]+\.[0-9]+\.[0-9]+$) 


如 果 用 "a 替换 '[0-9]1, RARA d.d. d+. d+, 这 样 可 能 更 好 看 一 些 ( 注 1), 
但 是 ,这 个 表达 式 仍然 会 捕获 一 些 并 非 IP 地 址 的 数据 ,例如 “1234.5678.9101112.131415” 


注 1: 这 倒 不 一 定 , 主要 看 读者 的 喜好 。 我 发 现 , 在 复杂 的 正则 表达 式 中 ,\dj 比 '[0-9]1 更 容易 
理解 ， 但 是 ， 在 某 些 系统 中 ， 这 二 者 并 不 等 同 。 在 支持 Unicode htt, a 或 许 能 匹配 
非 ASCII 的 数字 。 


ill 
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(IP 地 址 的 每 个 字段 都 在 0-255 以 内 )。 那么 , 你 可 以 强行 规定 每 个 字段 必须 包含 三 位 数字 ， 
BREE '*\d\d\d\.\d\a\d\.\d\d\d\.\d\d\d$), 但 这 样 未 免 太 不 灵活 (too specific) 了 。 即 
使 某 个 字段 只 有 一 位 或 者 两 位 数字 (例如 1.234.5.67)， 也 应 该 匹配 。 如 果 流 派 支持 区 间 
量词 [min,max}) , PAT WIXZAS '*\d(1,3}\.\d{1,3}\-\a(1,3)\.\d(1, 3383, 如果 不 支持 ， 
则 可 以 用 "a\d?\d?1 或 者 "da(\ad\d?) ?il。 这 两 种 方式 略 有 不 同 , 但 都 能 匹配 一 到 三 个 数字 。 


现在 ， 正 则 表达 式 中 的 匹配 精度 可 能 已 经 满足 需求 了 。 如 果 要 更 精确 ， 就 必须 考虑 到 ， 
"a{1,3 儿 ,能够 匹配 999， 而 它 超过 了 255， 所 以 它 不 是 一 个 合法 的 了 地址。 


我 们 有 好 几 种 办 法 来 匹配 0 和 255 之 间 的 数字 。 最 条 的 办 法 就 是 01112131…25312541255j。 
不 过 这 又 不 能 处 理 以 0 开头 的 数字 ,所 以 必须 写成 '01001000111011001…J, 这 样 一 来 , IE 
则 表达 式 就 长 得 过 分 了 。 对 于 DFA 引擎 来 说 ,问题 还 只 是 它 太 长 太 繁杂 一 一 但 匹配 的 速度 
与 其 他 等 价 正则 表达 式 是 一 样 的 。 但 对 于 NFA 引擎 ， 太 多 的 多 选 分 支 简直 就 是 效率 杀手 。 


实际 的 解决 办 法 是 ， 关 注 字 段 中 什么 位 置 可 以 出 现 哪 些 数字 。 如 果 一 个 字段 只 包含 一 个 或 
者 两 个 数字 ， 就 无 需 担 心 这 个 字段 的 值 是 否 合法 , 所 以 \at\a\d 就 能 应 付 。 也 不 比 担心 那 
些 以 0 或 者 1 开头 的 三 位 数 , 因为 000-199 都 是 合法 的 IP 地 址 。 所 以 我 们 加 上 | (02) ad, 
得 到 \al\a\al[oll\a\d。 你 可 能 觉得 这 有 点 像 第 1 章 里 匹配 时 间 的 例子 (228), ， 和 前 一 
章 中 匹配 日 期 的 例子 (7177), 


继续 看 这 个 正则 表达 式 ， 以 2 开头 的 三 位 数字 ， 如 果 小 于 255 就 是 合法 的 ， 所 以 第 二 位 数 
字 小 于 5 就 代表 整个 数 也 是 合法 的 。 如 果 第 二 位 数字 是 5， 第 三 位 数字 就 必须 小 于 6。 这 可 
以 表示 为 '2[0-4]\d125[0-5]j。 


现在 这 个 正则 表达 式 有 点 看 不 懂 了 ， 但 分 析 之 后 还 是 能 够 理解 其 中 包含 的 思路 。 结 果 就 是 
alvaval[ollvaval2[0-4]\dl25[0-5]。 其 实 我 们 可 以 合并 前 面 三 个 多 选 分 支 ， 得 到 
£01) 2\d\d212 [0-4] \da125[0-5])。 在 NEFA 中 ,这 样 做 的 效率 更 高 ， 因 为 任何 多 选 分 支 匹 
配 失 败 都 会 导致 回溯 。 请 注意 ， 第 一 个 多 选 分 支 中 用 的 是 "da\a?,， 而 不 是 "a?\d!， 这样 ， 
如 果 根 本 不 存在 数字 ，NFA 会 更 快 地 报告 匹配 失败 。 我 把 这 个 问题 的 分 析 留 给 读者 一 一 通 
过 一 个 简单 的 验证 就 能 发 现 二 者 的 区 别 。 我 们 还 可 以 做 些 修改 进一步 提高 这 个 表达 式 的 效 
率 ， 不 过 这 要 留待 下 一 章 讨论 了 。 


ii 


www.TopSage.com 





若干 简单 的 例子 189 


现在 这 个 表达 式 能 够 匹配 0 到 255 之 间 的 数 ， 我 们 用 括号 把 它 包 起 来 ， 用 来 取代 之 前 表达 
式 中 的 \ ad{1,3}J， 就 得 到 : 
‘~([01]?\d\ad?12[0-4]\d125[0-5])\.([01]?3\d\d?12[0-4]\d125[0-5])\. 
(101]?\d\d?12[0-4]\d125[0-5])\.([01]?\ad\d?12[0-4] \d125 [0-5] )$; 
这 可 真 叫 复杂 ! 需要 这 么 麻烦 吗 ? 这 得 根据 具体 需求 来 决定 。 这 个 表达 式 只 会 匹配 合法 的 
IP ht, 但 是 它 也 会 匹配 一 些 语意 不 正确 的 IP 地址 , 例如 0.0.0.0 (所 有 字段 都 为 零 的 IP 
地 址 是 非法 的 )。 使 用 环视 功能 (133) 可 以 在 “后 添加 '(?!:0+\.0+\.0+\.0+$)!， 但 是 
某 些 时 候 ， 处 理 各 种 极端 情形 会 降低 成 本 /收益 的 比例 。 某 些 情况 下 ， 更 合适 的 做 法 就 是 不 
依赖 正则 表达 式 完 成 人 部 工作 。 例 如 ， 你 可 以 只 使 用 ~^\a{1,3}\.\ad{1,3}\.\ad{l1,3}\. 
\d{1,3}$， 用 括号 把 每 个 字段 括 起 来 ， 把 数字 变 成 程序 中 的 $1、$2、$3、$4， 这 样 就 可 以 
用 其 他 程序 来 验证 了 。 


确定 应 用 场合 (context) 


这 个 正则 表达 式 必 须 借 助 销 点 An's. 才能 正常 工作 , 认识 到 这 一 点 很 重要 。 否则 , 它 就 可 
能 匹配 ip=72123.3.21.993， 如 果 使 用 传统 型 NFA， 则 可 能 匹配 ip=123.3.21.223, 


在 第 二 个 例子 中 ， 这 个 表达 式 甚至 连 最 后 的 223 都 无 法 完整 匹配 。 但 是 ， 问 题 并 不 在 于 表 
达 式 本 身 ， 因 为 没有 东西 (例如 分 隔 符 , 或 者 末尾 的 锁 点 ) 强迫 它 匹配 223 。 最 后 那个 分 组 
的 第 一 个 多 选 分 支 '[011?\a\a?1!/， 匹 配 了 前 面 两 位 数字 ， 如 果 末 尾 没 有 '$!,， 匹 配 到 此 就 结 
束 了 。 在 前 一 章 日 期 匹配 的 例子 中 ， 我 们 可 以 安排 多 选 分 支 的 次 序 来 达到 期 望 的 目的 。 现 
在 我 们 也 把 能 把 匹配 三 位 数字 的 多 选 分 支 放 在 最 前 面 ， 这 样 在 匹配 两 位 数 的 多 选 分 支 获 得 
尝试 机 会 之 前 ,任何 三 位 数 都 能 完全 匹配 (DFA 和 POSIX NFA 当然 不 需要 这 样 安排 ， 因 为 
它们 总 是 返回 最 长 的 匹配 文本 )。 


无 论 是 否 重新 排序 ， 第 一 个 错误 仍然 不 可 避免 。“ 啊 哈 !1”， 你 可 能 会 想 ,，“ 我 可 以 用 单词 分 
界 符 锁 点 来 解决 这 个 问题 .” 不 幸 的 是 ， 这 也 不 能 奏效 ， 因 为 这 样 的 正则 表达 式 仍 然 能 够 匹 
Ae 1.2.3.4.5.6。 为 了 避免 匹配 这 样 内 嵌 的 文本 ， 我 们 必须 确保 匹配 文本 两 侧 至 少 没 有 数 
字 或 者 点 号 。 如 果 使 用 环视 ， 可 以 在 原来 表达 式 的 首尾 添加 '(?<!{\w.])…(?![\w.])1 来 
保证 匹配 文本 之 前 (以 及 之 后 ) 不 出 现 '[\w.], 能 匹配 的 字符 。 如 果 不 支持 环视 ,在 首尾 添 
加 (“1*)…(*1$) ,也 能 够 应 付 某 些 情况 。 








Hi 
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处 理 文件 名 


Working with Filenames 


处 理 文 件 名 和 路 径 ， 例 如 Unix PAY/usr/local/bin/Perl 或 者 Windows 下 的 \Program 
Files\Yahoo!\Messenger， 很 适合 用 来 讲解 正则 表达 式 的 应 用 。 因 为 “动手 (using)” 比 
“观摩 (reading)” 更 有 意思 , 我 会 同时 用 Perl, PHP (preg 程序 ) Java 和 VB.NET 来 讲解 。 
如 果 你 对 其 中 的 某 些 语言 不 感 兴 趣 ， 不 妨 完 全 跳 过 那些 代码 一 其 中 蕴含 的 思想 才 是 最 重 
要 的 。 


去 掉 文 件 名 开头 的 路 径 


第 一 个 例子 是 去 掉 文件 名 开始 的 路 径 , 例如 把 /usr/1local/bin/gcc 变 成 gcc。 从 本 质 层 面 
来 考虑 问题 是 成 功 的 一 半 。 在 本 例 中 , 我 们 希望 去 掉 在 最 后 的 斜 线 ( 含 ) 之 前 (在 Windows 
Hie RR) 的 任何 字符 。 如 果 没有 斜 线 最 好 ， 因 为 什么 也 不 用 干 。 我 曾 说 过 ，.* ,常常 被 
滥用 , 但 是 此 处 我 们 需要 匹配 优先 的 特性 。^.*/j 中 的 和 .* 可 以 匹配 一 整 行 ,然后 回 退 (也 
就 是 回溯 ) 到 最 后 的 斜 线 ， 来 完成 匹配 。 


下 面 是 四 种 语言 的 代码 ， 去 掉 变 量 £ 中 的 文件 名 中 开头 的 路 径 。 对 于 Unix 的 文件 名 ， 


二 

Perl $f =~ o{*.*/}{); 

PHP $f = preg_replace('{^.*/}', '', $f); 
java.util.regex f = f.replaceFirst("*.*/",""); 
VB.NET f = Regex.Replace(f, "^.*/",""); 


正则 表达 式 (或 者 说 用 来 表示 正则 表达 式 的 字符 串 ) 以 下 画 线 标注 ， 正 则 表达 式 相关 的 组 
件 则 由 粗 体 标注 。 


下 面 是 处 理 Windows 文件 名 的 代码 ，Windows 中 的 分 隔 符 是 反 斜 线 而 不 是 斜 线 ， 所 以 要 用 
正则 表达 式 “.*\\。 在 正则 表达 式 中 ， 我 们 需要 在 反 斜 线 前 再 加 一 个 反 斜 线 ， 才 能 表示 转 
义 的 反 斜 线 ， 不 过 ， 在 中 间 两 段 程序 中 添加 的 这 个 反 斜 线 本 身 也 需要 转 义 ; 


[I 5 m — — — ~ = — 一 -一 一 
和 WF ig a Af vi, bess [I ~~ = Py KD X . ee a lee Be S Lp. c cP 3 Pil iy bog “s SSI E VR 
ze y l bie ENA “gta e D E ae pe, ON Rep PAE AA eS 
j ai oe 12 r ` " Vike PN. Nos Ew EA Y ae ays ` Hy 
a = = 4 = r — a Swe ——_=- = res ú PEEPI h riari — sah 7/ 





Perl SE un g/*.*\\//; 

PHP $f = preg_replace('/^.*\\\/', '', $f); 
java.util.regex f = f.replaceFirst("*.*\\\\",""); 
VB.NET f = Regex.Replace(f, "*.*\\",""); 


从 中 很 容易 看 出 各 种 语言 的 差异 ， 尤 其 是 Java 中 那 4 PRAM (7101), 
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有 一 点 请 务必 记 住 : 别 忘 了 时 常 想 想 匹 配 失 败 的 情形 。 在 本 例 中 ， 匹 配 失败 意味 着 字符 申 
中 没有 斜 线 ， 所 以 不 会 替换 ， 字 符 串 也 不 会 变化 ， 而 这 正 是 我 们 需要 的 。 


为 了 保证 效率 ， 我 们 需要 记 住 NFA 引擎 的 工作 原理 。 设 想 下 面 这 种 情况 : 我 们 忘记 在 正则 
表达 式 的 开头 添加 FES (这 个 符号 很 容易 忘记 ) ， 用 来 匹配 一 个 恰好 没有 斜 线 的 字符 串 。 
同样 , 正则 引擎 会 在 字符 串 的 起 始 位 置 开 始 搜索 。.* ,抵达 字符 串 的 未 尾 , 但 必须 不 断 回 退 ， 
以 找到 斜 线 或 者 反 斜 线 。 直 到 最 后 它 交还 了 匹配 的 所 有 字符 ， 仍 然 无 法 匹配 。 所 以 ， 正 则 
引擎 知道 ， 在 字符 串 的 起 始 位 置 不 存在 匹配 ， 但 这 远 远 没有 结束 。 


接 下 来 传动 装置 开始 工作 ， 从 在 目标 字符 串 的 第 2 个 字符 开始 ， 依 次 尝试 匹配 整个 正则 表 
达 式 。 事 实 上 ， 它 需要 在 字符 串 的 每 个 位 置 (从 理论 上 说 ) 进行 扫描 -回溯 。 文 件 名 通常 很 
短 ， 因 此 这 不 是 一 个 问题 , 但 原理 确实 如 此 。 如 果 字 符 串 很 长 , 就 可 能 存在 大 量 的 回溯 ( 当 
然 ，DFA 不 存在 这 个 问题 )。 


在 实践 中 ， 经 过 合理 优化 的 传动 装置 能 够 认识 到 ， 对 几乎 所 有 以 .*; 开 头 的 正则 表达 式 来 
说 ， 如 果 在 某 个 字符 串 的 起 始 位 置 不 能 匹配 ， 也 就 不 能 在 其 他 任何 位 置 匹 配 ， 所 以 它 只 会 
在 字符 串 的 起 始 位 置 (7246) 尝试 一 次 。 不 过 ， 在 正则 表达 式 中 写 明 这 一 点 更 加 明智 ， 在 
例子 中 我 们 正 是 这 样 做 的 。 


从 路 径 中 获取 文件 名 


另 一 种 办 法 是 忽略 路 径 ， 简 单 地 匹配 最 后 的 文件 名 部 分 。 最 终 的 文件 名 就 是 从 最 后 一 个 斜 
线 开 始 的 所 有 内 容 : 【^/1*Si。 这 一 次 ， 锁 点 不 仅仅 是 一 种 优化 措施 ， 我 们 确实 需要 在 结尾 
设置 一 个 销 点 。 现 在 我 们 可 以 这 样 做 ， 以 Perl 来 说 明 ; 

SWholePath =~ m{([*/]*)$}; # 利用 正则 表达 式 检测 SwholePath 

SFilename = $1; # 记录 匹配 内 容 
你 也 许 注 意 到 了 ， 这 里 并 役 有 检查 这 个 正则 表达 式 能 否 匹 配 ， 因 为 它 总 是 能 匹配 。 这 个 表 
达 式 的 唯一 要 求 就 是 ， 字 符 串 有 $ 能 够 匹配 的 结束 位 置 ， 而 即使 是 空 字符 串 也 有 一 个 结束 位 
E., A, RASI 来 引用 括号 内 的 表达 式 匹配 的 文本 ， 因 为 它 必 定 包括 某 些 字符 (如果 文 
件 名 以 斜 线 结尾 ， 结 果 就 是 空 字符 )。 


这 里 还 需要 考虑 到 效率 在 NFA 中 ,，'[^/1*s 的 效率 很 低 , 仔细 想 想 NFA 引擎 的 匹配 过 程 ， 
你 会 明白 它 包 括 了 太 多 的 回调 。 即 使 是 短 短 的 “/usry/local/bin/per1l” ,在 获得 匹配 结果 
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之 前 , 也 要 进行 四 十 多 次 回 滴 。 考虑 从 … 1ocal… 开 始 的 尝试 。'[{^/}*, 一 直 匹 配 到 第 二 个 1， 
之 后 匹配 失败 ， 然 后 对 1、a、c、o、1 的 存储 状态 依次 尝试 S (都 无 法 匹配 )。 如 果 这 还 不 
够 ， 又 会 从 …1,ocal/… 开 始 重复 这 个 过 程 ， 接 着 从 …1lo.cal/… 开 始 ， 不 断 重复 。 


这 个 例子 不 应 该 消耗 我 们 太 多 的 精力 ， 因 为 文件 名 一 般 都 很 短 (40 次 回溯 几乎 可 以 忽略 不 
计 一 一 4000 万 次 回溯 才 真 正 要 紧 )。 再 一 次 , 重要 的 是 理解 问题 本 身 , 这 样 才能 选择 合适 的 
通用 规则 来 解决 具体 的 问题 。 


需要 指出 的 是 ， 纵 然 本 书 是 关于 正则 表达 式 的 ， 但 正则 表达 式 也 不 总 是 最 优 解 。 例 如 ， 大 
多 数 程序 设计 语言 都 提供 了 处 理 文件 名 的 非 正则 表达 式 函 数 。 不 过 为 了 讲解 正则 表达 式 ， 
我 仍 会 继续 下 去 。 


所 在 路 径 和 文件 名 


下 一 步 是 把 完整 的 路 径 分 为 所 在 路 径 和 文件 名 两 部 分 。 有 许多 办 法 做 到 这 一 点 ， 这 取决 于 
我 们 的 要 求 。 开 始 ， 你 可 能 想 要 用 “(.*)7/(.*)5S 的 S1 和 $2 来 提取 这 两 者 。 看 起 来 这 个 正 
则 表达 式 非常 直观 ， 但 知道 了 匹配 优先 量词 的 工作 原理 之 后 ， 我 们 知道 第 一 个 *， 会 首先 
捕获 所 有 的 文本 , 而 不 给 /1 和 $2 留 下 任何 字符 。 第 一 个 '.*, 能 交还 字符 的 唯一 原因 , 就 是 
在 尝试 匹配 /{.*)$, 时 进行 的 回 滴 。 这 会 把 “交还 的 ”部 分 留 给 后 面 的 '.*,。 因 此 ，$1 就 
是 文件 所 在 的 路 径 ，$2 就 是 文件 的 名 字 。 


需要 注意 的 是 , 我 们 依靠 开头 的 (.*) /来 确保 第 二 个 '(.*) ,不 会 匹配 任何 斜 线 。 理解 匹配 
优先 之 后 , 我 们 知道 这 没 问 题 。 如 果 要 做 的 更 精确 ， 可 以 使 用 '[^/]*, 来 捕捉 文件 名 。 于 是 
我 们 得 到 “(.*)7/([^/]*)Si。 这 个 表达 式 准 确 地 表达 了 我 们 的 意图 ， 一 眼 就 能 看 明白 。 


这 个 表达 式 有 个 问题 , 它 要 求 字符 串 中 必须 出 现 一 个 斜 线 , 如 果 我 们 用 它 来 匹配 file.txt, 
因为 无 法 匹配 ， 所 以 设 有 结果 。 如 果 我 们 希望 精益 求 精 ， 可 以 这 样 : 


if ($WholePath = ~m!*(.*) /([*/]*)$!) { 

# EBEE --$1 和 $2 部 合法 

$LeadingPath = $1; 

$FileName = $2; 

} else { 

# “无 法 匹配 ， 文 件 名 中 不 包含“ 全 

$LeadingPath = "."; # 所 以 "file.txt" 应 该 是 "./file.txt"” ("." 表 示 当 前 路 径 ) 
$FileName = $WholePath; 

} 
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匹配 对 称 的 括号 


Matching Balanced Sets of Parentheses 


对 称 的 圆 括 号 、 方 括号 之 类 的 符号 匹配 起 来 非常 麻烦 。 在 处 理 配置 文件 和 源 代码 时 ， 经 当 
需要 匹配 对 称 的 括号 。 例 如 ， 解 析 C 语言 代码 时 可 能 需要 处 理 某 个 函数 的 所 有 参数 。 函 数 
的 参数 包含 在 函数 名 称 之 后 的 括号 里 ， 而 这 些 参 数 本 身 又 有 可 能 包含 嵌 套 的 函数 调用 或 是 
算式 中 的 括号 。 我 们 先 不 考虑 嵌 套 的 括号 ， 你 或 许 会 想到 “\bfoo\ ([^] ) *\J， 但 这 行 不 通 。 


FR C 的 光荣 传统 ， 我 把 示范 函数 命名 为 Foo。 表 达 式 中 的 标记 部 分 是 用 来 捕获 参数 的 。 
对 于 fo0(2,*4.0) 和 foo(somevar,*3.7) 之 类 的 参数 ， 这 个 表达 式 完 全 没 问题 。 但 是 ， 它 
也 可 以 匹配 foobar (somevar) 3.7)， 这 可 不 是 我 们 需要 的 。 所 以 要 用 到 比 '[~) 1+) ER 
明 的 办 法 。 


为 了 匹配 括号 部 分 ， 我们 可 以 尝试 下 面 的 这 些 正则 表达 式 : 


1 kE 括号 及 括号 内 部 的 任何 字符 。 
2. \([^)]*\) 从 一 个 开 插 号 到 最 近 的 闭 括号 。 
3. \([^(0]*\) ”从 一 个 开 插 号 到 最 近 的 闭 括 号 ,但 是 不 容许 其 中 包含 开 插 号 。 


图 5-1 显示 了 对 一 行 简单 代码 应 用 这 些 表 达 式 的 结果 。 
需要 匹配 的 部 分 


val = foo + 2 * (that - 1); 


Mm 
正则 表达 式 2 匹 配 的 部 分 


正则 表达 式 1 匹 配 的 部 分 





5-1: 三 个 表达 式 的 匹配 位 置 


我 们 看 到 ,第 一 个 正则 表达 式 匹 配 的 内 容 太 多 ( 注 2)， 第 二 个 正则 表达 式 匹配 的 内 容 太 少 ， 
第 三 个 正则 表达 式 无 法 匹配 。 和 孤立 地 看 ， 第 三 个 正则 表达 式 能 够 匹配 “(chis) ， 但 是 因为 
表达 式 要 求 它 必须 紧 接 在 foo 之 后 ， 所 以 无 法 匹配 。 所 以 ， 这 三 个 表达 式 都 不 合格 。 


注 2: 1.* 很 容易 出 问题 ， 所 以 使 用 '.*) 时 必须 格外 谨慎 ， 明 确 是 否 真 的 需要 用 一 个 星 号 来 约束 
点 号 。 有 时 候 确实 必须 这 么 做 ， 不 过 通常 '.*| 都 不 是 合适 的 选择 。 
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真正 的 问题 在 于 ， 大 多 数 系统 中 ， 正 则 表达 式 无 法 匹配 任意 深度 的 嵌 套 结构 。 在 很 长 的 时 
间 内 ， 这 是 放 之 四 海 而 皆 准 的 规则 ， 但 是 现在 Perl, .NET 和 PCRE/PHP 都 提供 了 解决 的 办 
法 (参见 第 328、436、475 页 ) 。 但 是 ， 即 使 不 用 这 些 功 能 ， 我 们 也 可 以 用 正则 表达 式 来 匹 
配 特定 深度 的 嵌 套 括号 ， 但 不 是 任意 深度 的 嵌 套 括号 。 处 理 单 层 伐 套 的 正则 表达 式 是 : 


NITOPRQONCESOTEND ^O] AN) 


REKETA, EREKHRERA AtA, (A, Pima) Perl RF, ERERERIE 
$depth 之 后 , 生成 的 正则 表达 式 可 以 匹配 最 大 深度 为 Saepth HRERS. CEMRE Perl 
的 “string x count” 运 算 符 ， 这 个 运算 符 会 把 string BE count 次 : 


Sregex = '\('’.'(?:(*() J) INC" x $depth . '[^{)]*' . '\))*" x $depth .'\}'’; 


这 个 表达 式 留 给 读者 分 析 。 


防备 不 期 望 的 匹配 


Watching Out for Unwanted Matches 


有 个 问题 很 容易 忘记 ， 即 ， 如 果 待 分 析 的 文本 不 符合 使 用 者 的 预期 ， 会 发 生 什 么 。 假 设 你 
需要 编写 一 个 过 滤 程 序 ， 把 普通 文本 转换 为 HTML， 你 希望 把 一 行 连 字 符号 转换 为 HTML 
中 代表 一 条 水 平 线 的 <HR>。 如 果 使 用 搜索 -替换 命令 s/-*/<HR>/， 它 能 替换 期 望 替换 的 文 
本 ,但 只 限于 它们 在 行 开头 的 情况 。 很 奇怪 吗 ? 事实 上 ，s/-*/<HR>/ 会 把 <HR> 添 加 到 每 一 
行 的 开头 ， 而 无 论 这 些 行 是 否 以 连 字 符 开头 。 


请 记 住 , 如 果 某 个 元 素 的 匹配 没有 硬性 规定 任何 必须 出 现 的 字符 , 那么 它 总 能 匹配 成 功 。-*， 
从 字符 串 的 起 始 位 置 开始 尝试 匹配 ， 它 会 匹配 可 能 的 任何 连 字符 。 但 是 ， 如 果 没 有 连 字符 ， 
它 仍然 能 匹配 成 功 ， 这 完全 符合 星 号 的 定义 。 


在 某 位 我 非常 尊重 的 作者 的 作品 中 出 现 过 类 似 的 例子 ， 他 用 这 个 例子 来 讲解 正则 表达 式 匹 
配 一 个 数 ， 或 者 是 整数 或 者 是 浮 点 数 。 在 它 的 正则 表达 式 中 ， 这 个 数 可 能 以 负数 符号 开头 ， 
然后 是 任意 多 个 数字 ， 然 后 是 可 能 的 小 数 点 ， 再 是 任何 多 的 数字 。 他 的 正则 表达 式 是 


-2?[0-9]w\.2[0-9]xi 
确实 ， 这 个 正则 表达 式 可 以 匹配 1、-272.37、129238843.、.191919， 黄 至 是 -.0 这 样 的 
数 。 这 样 看 来 ， 它 的 确 是 个 不 错 的 正则 表达 式 。 


但 是 ， 你 想 过 这 个 表达 式 如 何 匹 配 “this*has*no"number ” “nothing*here ”或 是 空 字 符 串 
吗 ? 仔细 看 看 这 个 正则 表达 式 一 一 每 一 个 部 分 都 不 是 匹配 必须 的 。 如 果 存 在 一 个 数 ， 如 果 
正则 表达 式 从 在 字符 串 的 起 始 位 置 开 始 ， 的 确 能 够 匹配 ， 但 是 因为 匹配 没有 任何 必须 元 素 。 
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此 正则 表达 式 可 以 匹配 每 个 例子 中 字符 种 开头 的 空 字符 。 实 际 上 它 其 至 可 以 匹配 “num*123 
开头 的 空 字符 ， 因 为 这 个 空 字 符 比 数字 出 现 得 更 早 。 


所 以 ， 把 真正 意图 表达 清楚 是 非常 重要 的 。 一 个 浮 点 数 必须 要 有 至 少 一 位 数字 ， 否 则 就 不 
是 一 个 合法 的 值 。 我 们 首先 假设 ， 在 小 数 点 之 前 至 少 有 一 位 数字 (之 后 我 们 会 去 掉 这 个 条 
件 )。 如 果 是 ， 我 们 需要 用 加 号 来 控制 这 些 数字 -?[0-9]+l。 


如 果 要 用 正则 表达 式 来 匹配 可 能 存在 的 小 数 点 (及 其 后 的 数字 ) ， 就 必须 认识 到 ， 小 数 部 分 
必须 紧 接 在 小 数 点 之 后 。 如 果 我 们 简单 地 用 仆 .?[0-91*， 那 么 无 论 小 数 点 是 否 存 在 ， 
[0-9]*, 都 可 能 匹配 。 


解决 的 办 法 还 是 厘清 我 们 的 意图 : 小 数 点 (以 及 之 后 的 数字 ) 是 可 能 出 现 的 ;'(\. (0-9) *) 21, 
ZE, SRE (BLAU “Hrg governs” 或 者 “控制 controls”) 的 不 再 是 小 数 点 ， 而 是 
小 数 点 和 后 面 的 小 数 部 分 。 在 这 个 结合 体内 部 ， 小 数 点 是 必须 出 现 的 ， 如 果 没 有 小 数 点 ， 
[0-9]*J 根 本 谈 不 上 匹配 。 


把 它们 结合 起 来 ， 就 得 到 和 -?10-9]+(\ .10-9]*)?)。 这 个 表达 式 不 能 匹配 “ .007' ， 因 为 它 
要 求 整数 部 分 必须 有 一 位 数字 。 如 果 我 们 作 些 修改 ， 容 许 整 数 部 分 为 空 ， 就 必须 同时 修改 
小 数 部 分 ， 否 则 这 个 表达 式 就 可 以 匹配 空 字 符 (这 是 我 们 一 开始 就 准备 解决 的 问题 ) 。 


解决 的 办 法 是 为 无 法 覆盖 的 情况 添加 多 选 分 支 : -?[0-9]+(\.[0-9]*)?1|-?\.[0-9]iie 这 
样 就 能 匹配 以 小 数 点 开头 的 小 数 (小 数 点 是 必须 的 ) 。 仔细 看 看 , 仔细 看 看 。 你 注意 到 了 吗 ? 
第 二 个 多 选 分 支 同样 能 够 匹配 负数 符号 开头 的 小 数 ? 这 很 容易 忘记 。 当 然 , 你 也 可 以 把 -?， 
提出 来 ， 放 到 所 有 多 选 结构 的 外 面 : '-?([0-9]+(\.[0-9]*)? | \.[0-9]+)J。 





虽然 这 个 表达 式 比 最 开始 的 好 得 多 ， 但 它 仍 然 会 匹配 “2003.04.12” 这 样 的 数字 。 要 想 真 
正 匹 配 期 望 的 文本 ， 同 时 忽略 不 期 望 的 文本 ， 求 得 平衡 ， 就 必须 了 解 实 际 的 待 匹 配 文本 。 
我 们 用 来 提取 浮 点 数 的 正则 表达 式 必须 包含 在 一 个 大 的 正则 表达 式 内 部 ， 例如 用 '^…$, 或 者 


r 
num\s*=\s*-"'Sj, 





if 
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匹配 分 隔 符 之 内 的 文本 


Matching Delimited Text 


匹配 用 分 隔 符 (以 某 些 字符 表示 ) 之 类 的 文本 是 常见 的 任务 ， 之 前 的 匹配 双 引 号 内 的 文本 
和 IP 地 址 只 是 这 类 问题 中 的 两 个 典型 例子 。 其 他 的 例子 还 包括 : 


© 匹配 “/*” 和 “*/” 之 间 的 C 语言 注释 。 
。 ”匹配 一 个 HTML tag， 也 就 是 尖 括 号 之 内 的 文本 ， 例 如 <CODE>。 


。 ”提取 HTML tag 标注 的 文本 , 例如 在 HTML 代码 “a <I>super exciting</I> offer!’ 
中 的 “super exciting’, 


。 ”匹配 .mailre 文件 中 的 一 行内 容 。 这 个 文件 的 每 一 行 都 按 下 面 的 数据 格式 来 组 织 ; 
alias 简称 电子 邮件 地 址 


例如 ‘alias jeff jfriedi8@regex.info”( 在 这 里 ， 分 隔 符 是 每 个 部 分 之 间 的 空白 
和 换行 符 )。 


© ”匹配 引文 字符 串 (quoted string) ， 但 是 容许 其 中 包含 转 义 的 引号 ， 例 如 “a passport 


needs a "2\"x3\" likeness" of the holder’, 
° ”解析 CSV (逗号 分 隔 值 ，comma-separated values) 文件 。 
总 的 来 说 ， 处 理 这 些 任 务 的 步 嗓 是 : 
1. 匹配 起 始 分 隔 符 (opening delimiter) 。 
2. 匹配 正文 (main text， 即 结束 分 隔 符 之 前 的 所 有 文本 ) 。 
3. 匹配 结束 分 隔 符 。 


我 曾经 说 过 ， 如 果 结 束 分 隔 符 不 只 一 个 字符 ， 或 者 结束 分 隔 符 能 够 出 现在 正文 中 ， 这 种 任 
务 就 很 难 完成 。 





容许 引文 字符 串 中 出 现 转 义 引号 


来 看 2\"x3\" 的 例子 ， 这 里 的 结束 分 隔 符 是 一 个 引号 , 但 正文 也 可 能 包含 转 义 之 后 的 引号 。 
匹配 开始 和 结束 分 隔 符 很 容易 ， 雇 窃 就 在 于 ， 匹 配 正文 的 时 候 不 要 超越 结束 分 隔 符 。 


仔细 想 想 正文 里 能 够 出 现 的 字符 ， 我 们 知道 ， 如 果 一 个 字符 不 是 引号 ， 也 就 是 说 如 果 这 个 
字符 能 由 '[^"]; 匹 配 ， 那 么 它 肯 定 属于 正文 。 不 过 ， 如 果 这 个 字符 是 一 个 引号 ， 而 它 前 面 
又 有 一 个 反 斜 线 ， 那 么 这 个 引号 也 属于 正文 。 把 这 个 意思 表达 出 来 ， 使 用 环视 (7133) 功 
能 来 处 理 “ 如 果 之 前 有 反 斜 线 ” 的 情况 ， 就 得 到 “"([^"11(?<=\\)")*"， 这 个 表达 式 完 全 
能 够 匹配 2\"x3\"。 


www.TopSage.com 


若干 简单 的 例子 197 


不 过 ， 这 个 例子 也 能 用 来 说 明 ， 看 起 来 正确 的 正则 表达 式 如 何 会 匹配 意料 之 外 的 文本 ， 它 
虽然 看 起 来 正确 ， 但 不 是 任何 情况 下 都 正确 。 我 们 希望 它 匹配 下 面 这 个 无 聊 的 例子 中 的 划 
线 部 分 : 


Darth Symbol: "/-|-\\" or "[*-*]" 
但 它 匹配 的 是 : 
Darth Symbol: "/-|I-\\" or "[^-^]" 


这 是 因为 ， 第 一 个 闭 引号 之 前 的 确 存 在 一 个 反 斜 线 。 但 这 个 反 斜 线 本 身 是 被 转 义 的 ， 它 不 
是 用 来 转 义 之 后 的 双 引 号 的 (也 就 是 说 这 个 引号 其 实 是 表示 引用 文本 的 结束 )。 而 逆序 环视 
无 法 识别 这 个 被 转 义 的 反 斜 线 ， 如 果 在 这 个 引号 之 前 有 任意 多 个 “、、， 用 逆序 环视 只 会 把 
事情 弄 得 更 精 。 原 来 的 表达 式 的 真正 问题 在 于 ， 如 果 反 锋线 是 用 来 转 义 引号 的 ， 在 我 们 第 
一 次 处 理 它 时 ， 不 会 认为 它 是 表示 转 义 的 反 斜 线 。 所 以 ， 我 们 得 用 别 的 办 法 来 解决 。 





仔细 想 想 我 们 想 要 匹配 的 位 于 开始 分 隔 符 和 结束 分 隔 符 之 间 的 文本 ， 我 们 知道 ， 其 中 可 以 
包括 转 义 的 字符 (\\ .1) ,也 可 以 包括 非 引号 的 任何 字符 '{^"] 1。 FÆRA OV IOD 
*"。 不 错 ， 现 在 这 个 问题 解决 了 。 不 幸 的 是 ， 这 个 表达 式 还 有 问题 。 不 期 望 的 匹配 仍然 会 
发 生 ， 比 如 对 这 个 文本 ， 它 应 该 是 无 法 匹配 的 ， 因 为 其 中 没有 结束 分 隔 符 。 


"You need a 2\"x3\" Photo. 


为 什么 能 匹配 呢 ? 回忆 一 下 “匹配 优先 和 忽略 优先 都 期 望 获得 匹配 ” (也 167)。 即 使 这 个 表 
达 式 一 开始 匹配 到 了 引号 之 后 的 文本 ， 如 果 找 不 到 结束 的 引号 ， 它 就 会 回潮， 到 达 








TAN EDs 


Wak BFP KG, ^" DORR RR, ZAR SSR HE — PRIS. 
这 个 例子 给 我 们 的 重要 启示 是 : 


如 果 回 漳 会 导致 不 期 望 ， 与 多 选 结构 有 关 的 匹配 结果 ， 问 题 很 可 能 在 于 ， 任 何 成 功 的 
匹配 都 不 过 是 多 选 分 支 的 排列 顺序 造成 的 偶然 结果 。 


实际 上 ， 如 果 我 们 把 这 个 正则 表达 式 的 多 选 分 支 反 过 来 排列 ， 它 就 会 错误 地 匹配 任何 包含 
转 义 双 引 号 的 字符 串 。 真 正 的 问题 在 于 ， 各 个 多 选 分 支 能 够 匹配 的 内 容 发 生 了 重 登 。 


那么 ， 应 该 如 何 解 决 这 个 问题 呢 ? 就 像 第 186 页 的 那个 连续 行 的 例子 一 样 ， 我 们 必须 确保 ， 
这 个 反 斜 线 不 能 以 其 他 的 方式 匹配 ， 也 就 是 说 把 [~"], 改 为 '[~^\\"]1。 这 样 就 能 识别 双 引 
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号 和 文本 中 的 “特殊 ” 反 斜 线 ， 必 须根 据 情 况 分 别处 理 。 结 果 就 是 "(\\.1U“\\"J)*"， 它 
工作 得 很 好 (尽管 这 个 正则 表达 式 能 够 正常 工作 ， 但 对 于 NFA 引擎 来 说 ， 仍 然 有 提升 效率 
的 改进 ， 我 们 会 在 下 一 章 更 详细 地 看 这 个 例子 ， 灾 222) 。 


这 个 例子 告诉 我 们 一 条 重要 的 原理 : 


不 应 该 忘记 考虑 这 样 的 “特殊 ”情形 :; 例如 针对 “ 精 糕 (bad)” 的 数据 ， 正 则 表达 式 
不 应 该 能 够 匹配 。 


我 们 的 修改 是 正确 的 ， 但 是 有 意思 的 是 ， 如 果 有 占有 优先 量词 (7142) 或 者 是 固化 分 组 
(139)， 这 个 正则 表达 式 可 以 重新 写作 …"(\\.1[^"])e+" "R> AA] "u AX 
两 个 正则 表达 式 禁 止 引 擎 回溯 到 可 能 出 问题 的 地 方 ， 所 以 它们 都 可 以 满足 要 求 。 


理解 占有 优先 量词 和 固化 分 组 解决 此 问题 的 原理 非常 有 价值 ， 但 是 我 仍然 要 继续 之 前 的 修 
正 ， 因 为 对 读者 来 说 它 更 具 描述 性 (更 直观 )。 其 实在 这 个 问题 上 ， 我 也 愿意 使 用 占有 优先 





量词 和 固化 分 组 一 一 不 是 为 了 解决 之 前 的 问题 ， 而 是 为 了 效率 ， 因 为 这 样 报告 匹配 失败 的 
速度 更 快 。 
了 解数 据 ， 做 出 假设 


Knowing Your Data and Making Assumptions 


现在 是 时 候 强 调 我 曾经 数 次 提 到 过 的 关于 构建 和 使 用 正则 表达 式 的 一 般 规则 了 。 知 道 正则 
表达 式 会 在 什么 情况 中 应 用 , 关于 目标 数据 又 有 什么 样 的 假设 , 这 非常 重要 。 即使 简单 如 al 
这 样 的 数据 也 假设 目标 数据 使 用 的 是 作者 预期 的 字符 编码 (105)。 这 都 是 一 些 很 基本 的 
常识 ， 所 以 我 一 直 没 有 过 分 细致 地 介绍 。 


但 是 ， 许 多 对 某 个 人 来 说 明显 的 常识 ， 可 能 对 其 他 人 来 说 并 不 明显 。 例 如 ， 前 一 节 的 解决 
办 法 假设 转 义 的 换行 符 不 会 被 匹配 ,或 者 会 被 应 用 于 点 号 通 配 模式 (=111)。 如 果 我 们 真 的 
想 要 保证 点 号 可 以 匹配 换行 符 ， 同 时 流派 也 支持 ， 我 们 应 该 使 用 (?s: .) 1。 


前 一 节 中 我 们 还 假设 了 正则 表达 式 将 应 用 的 数据 类 型 ， 它 不 能 处 理 表示 其 他 用 途 的 双 引 号 。 
如 果 用 这 个 正则 表达 式 来 处 理 任何 程序 的 源 代码 ， 就 可 能 出 错 ， 因 为 注释 中 可 能 包括 双 引 
号 。 


对 数据 做 出 假设 ， 对 正则 表达 式 的 应 用 方式 做 出 假设 ， 都 无 可 厚 非 。 问 题 在 于 ， 假 设 如 果 


L 
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存在 ， 通 常会 过 分 乐观 ， 也 会 低估 了 作者 的 意图 和 正则 表达 式 最 终 应 用 间 的 差异 。 记 录 下 
这 些 假设 会 有 帮助 。 


去 除 文本 首尾 的 空白 字符 


Stripping Leading and Trailing Whitespace 


去 除 文本 首尾 的 空白 字符 并 不 难 做 到 ， 这 是 经 常 要 完成 的 任务 。 总 的 来 说 最 好 的 办 法 是 使 
用 下 面 两 个 替换 : 


s/*\s+//; 

s/\s+$//; 
为 了 增加 效率 , 我 们 用 +, 而 不 是 *,， 因 为 如 果 事 实 上 没有 需要 删除 的 空白 字符 ,就 不 用 做 
替换 。 


出 于 某 些 考 虑 ， 人 们 似乎 更 希望 用 一 个 正则 表达 式 来 解决 整个 问题 ， 所 以 我 会 提供 一 些 方 
法 供 比较 。 我 不 推荐 这 些 办 法 ， 但 对 理解 这 些 正 则 表达 式 的 工作 原理 及 其 问题 所 在 ， 非 常 
有 意义 。 
s/\s*(.*?)\s*$/$1/s 

这 个 正则 表达 式 曾 被 用 作 降 解 忽略 优先 量词 的 绝 佳 例 子 ， 但 现在 不 是 了 ， 因 为 人 们 认 


识 到 它 比 普通 的 办 法 慢 得 多 〈 在 Perl 中 要 慢 5 倍 ) 。 之 所 以 效率 这 么 低 , 是 因为 忽略 优 
先 约束 的 点 号 每 次 应 用 时 都 要 检查 \s*si。 这 需要 大 量 的 回调 。 


s/“\s*((?:.*\S)?)\s*$/$1/s 
这 个 表达 式 看 起 来 比 上 一 个 要 复杂 ， 不 过 它 的 匹配 倒是 很 容易 理解 ， 而 且 所 花 的 时 间 
也 只 是 普通 方法 的 2 fH. 在 “\s*i 匹 配 了 文本 开头 的 空格 之 后 ,'.* 马上 匹配 到 文本 的 
末尾 。 后 面 的 \S, 强 迫 它 回 漳 直 到 找到 一 个 非 空 的 字符 ， 把 剩 下 的 空白 字符 留 给 最 后 
的 \s*sS,， 捕 获 括号 之 外 的 。 
问号 在 这 里 是 必须 的 ， 因 为 如 果 一 行 数 据 只 包含 空白 字符 的 行 ， 必 须 出 现 问号 ， 表 达 
式 才能 正常 工作 。 如 果 没 有 问号 ， 可 能 会 无 法 匹配 ， 错 过 这 种 只 有 空白 字符 的 行 。 
s/*\s+l\s+$//qg 
这 是 最 容易 想到 的 正则 表达 式 ， 但 它 不 正确 (其 实 这 三 个 正则 表达 式 都 不 正确 )， 这 种 
顶 极 的 (top-leveled) 多 选 分 支 排列 严重 影响 本 来 可 能 使 用 的 优化 措施 (参见 下 一 章 )。 
/g 这 个 修饰 符 是 必须 的 , 它 容 许 每 个 多 选 分 支 匹 配 , 去 掉 开 始 和 结束 的 空格 。 看 起 来 ， 
用 /g 是 多 此 一 举 ， 因 为 我 们 知道 我 们 只 希望 去 掉 最 多 两 部 分 空白 字符 ， 每 部 分 对 应 单 
独 的 子 表达 式 。 这 个 正则 表达 式 所 用 的 时 间 是 简单 办 法 的 4 倍 。 
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测试 时 我 提 到 了 相对 速度 ， 但 是 实际 的 相对 速度 取决 于 所 用 的 软件 和 数据 。 例 如 ， 如 果 目 
标 文本 非常 非常 长 ， 而 且 在 首尾 只 有 很 少 的 空格 ， 中 间 的 那个 表达 式 甚 至 会 比 简单 的 方法 
更 快 。 不 过 ， 我 自己 在 程序 中 仍然 使 用 下 面 两 种 形式 的 正则 表达 式 : 


s/*\s+//; 
s/\s+S//; 


因为 它 几 乎 总 是 最 快 的 ， 而 且 显然 最 容易 理解 。 


HIML 相关 范例 


HTML-Related Examples 


在 第 2 章 , 我 们 曾 讨 论 过 把 纯 文 本 转换 为 HTML 的 例子 (=67)， 其 中 要 使 用 正则 表达 式 从 
文本 中 提取 E-mail 地 址 和 http URL。 本 节 来 看 一 些 与 HTML 相关 的 其 他 处 理 。 


匹配 HTML Tag 


Matching an HTML Tag 


最 常见 的 办 法 就 是 用 <[^>]+>: 来 匹配 HTML 标签 。 它 通常 都 能 工作 ， 例 如 下 面 这 段 用 来 
去 除 标签 的 Perl 语句 ， 


$html = ~ s/<[*>]+>//g; 


如 果 tag PAA >’, 它 就 不 能 正常 匹配 了 , 而 这 样 的 tag 明明 是 合乎 HTML 规范 的 : <input 
name=dir value=">">。 虽 然 这 种 情况 很 少见 ， 也 不 为 大 家 推荐 ， 但 HTML 语言 确实 容许 
在 引号 内 的 tag 属性 中 出 现 非 转 义 的 “<” 和 “> " 。 这 样 ， 简 单 的 '<[^>]+>; 就 无 法 匹配 了 ， 
得 想 个 聪明 点 的 办 法 。 


“<…>” 中 能够 出 现 引 用 文本 和 非 引 用 形式 的 “其 他 文本 (other stuff)”, 其 中 包括 除了 “>' 
和 引号 之 外 的 任意 字符 。HTML 的 引文 可 以 用 单 引 号 ， 也 可 以 用 双 引 号 。 但 不 容许 转 义 嵌 
套 的 引号 ， 所 以 我 们 可 以 直接 用 …[^"]*" 和 六 5]*9 来 匹配 。 


把 这 些 和 “其 他 文本 ”表达 式 '[^'" >] 合 起 来 ， 我 们 得 到 : 


ETE Cole kid [^ > DELET 
这 个 表达 式 可 能 有 点 难看 懂 ， 那 么 加 上 注释 ， 按 宽松 排列 格式 来 看 : 


# 开始 类 括号 "<" 
# 任意 数量 的 ... 
# 双 引 号 字符 事 
# 或 者 是 ... 
a its # 单 引号 字符 事 
# RHR... 
4 "其 他 文本 " 
# 
4 
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这 个 表达 式 相 当 漂 亮 ， 它 会 把 每 个 引用 部 分 单 作为 一 个 单元 ， 而 且 清 楚 地 说 明了 在 匹配 的 
什么 位 置 容许 出 现 什么 字符 。 这 个 表达 式 的 各 部 分 不 会 匹配 重复 的 字符 ， 因 此 不 存在 模糊 
性 ， 也 就 不 需要 担心 发 生前 面 例 子 中 出 现 的 ,“ 不 小 心 冒 出 来 (sneaking in)” 非 期 望 匹配 。 


不 知 你 是 否 注意 到 了 ， 最 开始 的 两 个 多 选 分 支 的 引号 中 使 用 了 “*:， 而 不 是 +。 引用 字符 串 
可 能 为 空 (例如 “alt=""")， 所 以 要 用 *, 来 处 理 这 种 情况 。 但 不 要 在 第 三 个 多 选 分 支 中 用 
HUE +， BA + >] 1 只 接受 括号 外 的 '*/ 的 限定 。 给 它 添 加 一 个 加 号 得 到 "([^'"*>]+)*， 
可 能 导致 非常 奇怪 的 结果 ， 我 不 期 望 读 者 现在 就 能 理解 ， 下 一 章 (7226) 会 详细 讲解 它 。 


在 使 用 NFA 引擎 时 ， 我 们 还 需要 考虑 关于 效率 的 问题 : 既然 没有 用 到 括号 匹配 的 文本 ， 我 
们 可 以 把 它们 改 为 非 捕获 型 括号 (了 137)。 因 为 多 选 分 支 之 间 不 存在 重复 ， 如 果 最 后 的 >， 
无 法 匹配 ， 那 么 回头 来 尝试 其 他 的 多 选 分 支 也 是 徒劳 的 。 如 果 一 个 多 选 分 支 能 够 在 某 个 位 
置 匹配 ， 那 么 其 他 多 选 分 支 肯 定 无 法 在 这 里 匹配 。 所 以 ， 不 保存 状态 也 无 所 谓 ， 这 样 做 还 
可 以 更 快 地 导致 失败 ， 如 果 找 不 到 匹配 结果 的 话 。 我 们 可 以 用 固化 分 组 '(?>…) ,而 不 是 非 
捕获 型 括号 《或 者 用 占有 优先 的 星 号 限定 )。 


匹配 HTML Link 


Matching an HTML Link 


假设 我 们 需要 从 一 份 文档 中 提取 URL 和 链接 文本 ， 例 如 下 面 的 文本 中 标记 的 内 容 : 


<a href="http://www.oreilly.com">0O'Reilly MeGia</a>… 


因为 <A> tag 的 内 容 可 能 相当 复杂 ， 我 会 分 两 步 实 现 这 个 任务 。 第 一 个 是 提取 <A> tag 内 部 
的 内 容 ， 也 就 是 链接 文本 ， 然 后 从 <A> tag 中 提取 URL 地 址 。 


实现 第 一 步 有 个 简单 办 法 ,就 是 在 点 号 通 配 模式 下 应 用 不 区 分 大 小 写 的 '<a\b([^>]+)>(.*?) 
</a>!， 这 里 使 用 了 忽 赂 优先 量词 。 它 会 把 <A> 的 内 容 放 入 $1， 把 链接 文本 放 入 $2。 当 然 ， 
像 之 前 一 样 ， 我 不 应 该 用 '[^>] +;， 而 应 该 使 用 前 几 节 中 的 表达 式 。 不 过 在 本 节 ， 我 会 继续 
使 用 这 个 简单 的 形式 ， 因 为 这 样 正则 表达 式 更 短 ， 也 更 容易 讲解 。 


<A> 的 内 容 存 人 字符 串 之 后 ， 就 可 以 用 独立 的 正则 表达 式 来 检查 它们 。 其 中 ，URL 是 
href=value 属性 的 值 。 之 前 已 经 说 过 ，HTML 容许 等 号 的 任意 一 侧 出 现 空白 字符 ， 值 可 以 
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以 引用 形式 出 现 ， 也 可 以 以 非 引 用 形式 出 现 。 下 面 的 Perl 代码 用 来 输出 变量 SHtml 中 的 链 
接 。 


# 请 注意 : while(...) 中 的 正则 表达 式 是 简化 的 形式 ， 请 参见 正文 
while (SHEml =~ m{a\b([*>]+)>(.*?)</a>}ig) 
{ 

my $Guts = $1; # 把 匹配 结果 存 入 ... 


my S$Link $2; # .... 对 应 变量 
if ($Guts =~ m{ 
\b HREF # "href" 属性 
\s* = \s* # "=" RMTBEALRSOSH 
(?: # RAH... 
nA ice Ulead a # 双 引 号 字符 事 
| # 或 者 是 ... 
DOTTY # 单 引 号 字符 事 
| # 或 者 是 ... 
({*'">\s]+) # "其 他 文本 
) + 
}xi) 
{ 
my $Url = $+; # 获得 $1、S$2 等 中 实际 参与 匹配 的 编号 最 大 的 捕获 型 括号 的 内 容 


print "$Url with link text: $Link\n"; 
} 
} 


有 几 点 需要 注意 : 


。 ”我 们 为 匹配 值 的 每 个 多 选 结构 都 添加 了 括号 ， 来 捕获 确切 的 文本 。 


。 ”因为 我 使 用 了 某 些 括号 来 捕获 文本 ， 在 不 需要 捕获 的 地 方 我 使 用 非 捕获 型 括号 ， 这 样 
做 既 清楚 又 高 效 。 


。 ““ 其 他 字符 ”部 分 排除 了 空白 字符 ， 也 排除 了 引号 和 “> 。 


。 ”因为 需要 捕获 整个 href 的 值 ， 这 里 使 用 了 “+ 来 限制 “其 他 文本 ”多 选 分支 。 这 是 否 
会 和 第 200 页 对 其 他 字符 应 用 + 一 样 导 致 “非常 奇怪 的 结果 ” 昵 ? 不 会 ,因为 这 外 面 
没有 直接 作用 于 整个 多 选 结构 的 量词 。 其 中 的 细节 同样 会 在 下 一 章 讨 论 。 


根据 具体 文本 的 不 同 ， 最 后 ，URL 可 能 保存 在 $1、$2 或 者 $3 中 。 此 时 其 他 捕获 型 括号 就 
为 空 或 是 未 定义 。Perl 提供 了 特殊 变量 $+， 代 表 $1、$2 之 类 中 编号 最 靠 后 的 捕获 文本 。 在 
本 例 中 ， 这 就 是 我 们 真正 需要 的 URL。 


Perl 中 的 $+ 很 方便 ， 其 他 语言 也 提供 了 其 他 办 法 来 选择 捕获 的 URL。 常 用 的 程序 语言 结构 
就 可 以 检查 捕获 型 括号 ， 找 到 需要 的 内 容 。 如 果 能 够 支持 ， 命 名 捕获 (138) 最 适用 于 干 
这 个 , 就 像 204 页 的 VB.NET 的 例子 那样 (幸亏 .NET 提供 了 命名 捕获 , 因为 它 的 $+ 有 问题 ， 
F424)。 
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检查 HITP URL 


Examining an HTTP URL 


现在 我 们 得 到 了 URL 地 址 ， 来 看 看 它 是 否 是 HTTP URL， 如 果 是 ， 就 把 它 分 解 为 主机 名 
(hostname) 和 路 径 (path) 两 部 分 。 因 为 已 经 有 了 URL, 任务 就 比 从 随机 文本 中 识别 URL 
要 简单 许多 ， 识 别 的 程序 要 难 许多 ， 这 将 在 后 文 介绍 。 


所 以 ， 如 果 拿 到 一 个 URL, 我 们 需要 能 够 将 它 拆 分 为 各 个 部 分 。 主 机 名 是 “http:// 之 后 
和 第 一 个 反 和 斜 线 (如 果 有 的 话 ) 之 前 的 内 容 ， 而 路 径 就 是 除 此 之 外 的 内 容 : 


(nttp:// (~/]+) (/.*) ?$1 


URL 中 有 可 能 包含 端口 号 ， 它 位 于 主机 名 和 路 径 之 间 ， 以 一 个 冒号 开头 : '^http:// 
({*/s] +) (s (\d+))?(/.*)?$, 


下 面 是 一 个 分 解 URL 的 Perl 代码 : 


if ($url =~ m{*http://((*/:]+) (: (\d+))2?(/.*) ?$}i) 
{ 
my $host $1; 
my $port = $3 [| 80; # 如 果 存 在 ， 就 使 用 $3; 否则 默认 为 80 
my $path = $4 || "/"; # 如 果 存 在 ， 就 使 用 $4; 否则 默认 为 "/" 
print "Host: $host\n"; 
print "Port: $port\n"; 
print "Path: $path\n"; 
} else { 
print "Not an HTTP URL\n"; 


1 E 


验证 主机 名 


Validating a Hostname 


在 上 面 的 例子 中 ， 我 们 用 [^/:]+, 来 匹配 主机 名 。 不 过 ， 在 第 2 章 中 (也 76) 我 们 使 用 的 
是 更 复杂 的 '[-a-z]+(\.[-a-z]+)*\. (comledul-|info):, 做 同样 的 事情 , 复杂 程度 为 什 
么 会 有 这 么 大 的 差别 ? 


而 且 ， 虽 然 二 者 都 用 来 “匹配 主机 名 ”， 方 法 却 大 不 相同 。 从 已 知 文本 《例如 ， 从 现成 的 
URL +) 中 提取 一 些 信息 是 一 回 事 ， 从 随机 文本 中 准确 提取 同样 信息 是 另 一 回 事 。 


而 且 ， 在 上 例 中 我 们 假设 ，'http://” 之 后 就 是 主机 名 ， 所 以 用 '[^/ :]+ 来 匹配 就 是 理 所 
当然 的 。 但 是 在 第 2 章 的 例子 中 ， 我 们 使 用 正则 表达 式 从 随机 文本 中 寻找 主机 名 ， 所 以 它 
必须 更 加 复杂 。 


现在 从 另外 一 个 角度 来 看 主机 名 的 匹配 ， 我 们 可 以 用 正则 表达 式 来 验证 主机 名 。 也 就 是 说 ， 
我 们 需要 知道 ， 一 串 字 符 是 否 是 形式 规范 、 语 意 正 确 的 主机 名 。 按 规定 ， 主 机 名 由 点 号 分 
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VB.NET 中 的 link 检查 程序 
下 面 的 程序 会 列 出 Hem] 变量 中 的 链接 : 


Imports System.Text .RegularExpressions 


' 设置 搞 环 中 将 会 遇 到 的 正则 表达 式 
Dim A_RRegex as Regex = New Regex ( 
"<a\b(?<guts>[*>)+)>(?<Link>.*?)</a>", 
RegexOptions. IgnoreCase) 
Dim GutsRegex as Regex = New Regex( _ 
"\b HREF (?# ‘href' 属性 
"\s* = \s* (?# ‘=' 可 能 存在 空白 字 桂 
"(?: (?# 
vee ee (2# 
| (?# : 
" '(?<url>[^']*})' (?# #7 gF 
a (?# KAR... 
" (2<url>(*'"*>\s)+) (?# “' 其 他 文本 ' 
ot (?# | re 
RegexOptions.IgnoreCase Or RegexOptions.IgnorePatternWhitespace) 


RP RP RM BD MK RK Kw 


' 现在 检查 'Html' FF... 
Dim CheckA as Match = A_Regex.Match(Html) 


' For each match within ... 
While CheckA.Success 
' 已 匹配 <a> tag， 现 在 检查 URL 
Dim UrlCheck as Match = _ 
GutsRegex.Match (CheckA.Groups ("guts") . Value) 
If UrlCheck.Success 
' 已 经 匹配 完毕 ,得 到 URL/1ink 
Console.WriteLine("Url " & UrlCheck.Groups("url").Value & _ 
”WITH LINK " & CheckA.Groups ("Link") .Value) 
End If 
CheckA = CheckA.NextMatch 
End While 


需要 注意 的 几 点 : 

© £ VB.NET 中 使 用 正则 表达 式 ， 需 要 首先 执行 对 应 的 Imports 64), irkit 
应 当 导 入 的 库 文件 。 
程序 中 使 用 了 '(?#…) 1 风格 的 注释 ,因为 VB.NET 中 加 入 换行 符 很 不 方便 ,所 以 普 
ho) 8? EMDR TARA RAR FH SHA (第 一 种 情况 即 塌 味 着 正 
则 表达 式 剩 下 的 所 有 内 容 都 作为 注释 )。 为 了 使 用 正常 的 #…| 注释, 请 在 每 一 行 的 
$4 ALF oechr(10) (7420), 
表达 式 中 的 每 个 双 引 号 都 需要 以 “”"” 表示 (7103), 


两 个 表达 式 都 用 到 了 命名 捕获 ，Groups(*url") 比 Groups(1) 和 Groups(2) 之 类 
更 为 清晰 。 





W 
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隔 的 部 分 组 成 ， 每 个 部 分 可 以 包括 ASCI 字符 、 数 字 和 连 字 符 ， 但 是 不 能 以 连 字符 作为 开 
汰 和 结 妊 。 所 以 ,我们 可 以 在 不 区 分 大 小 写 的 模式 下 使 用 这 个 正则 表达 式 ; Ia-z0-9]1 
la-z0-9] [-a-z0-91*[a-z0-9];。 结 尾 的 后 缀 部 分 (‘com’, ‘edu’, ‘uk’ $) 只 有 有 限 
多 个 可 能 ， 这 在 第 2 章 的 例子 中 提 到 过 。 结 合 起 来 ， 下 面 的 正则 表达 式 就 能 够 匹配 -一 个 语 
意 正确 的 主机 名 : 


A 


(?i) # 进行 不 区 分 大 小 写 的 匹配 
# 零 个 或 多 个 据点 分 陪 的 部 分 
(?: [a-z0-9]\. | {a-z0-9] [-a-z0-9]*{[a-z0-9]\. )+ 


# RAEARAHERBD... 
(?: com!edulgov! int |mil|net |org|biz|info|name|museum|coop|aero| [a-z) [a-z] } 
$ 
因为 存在 长 度 的 限制 ， 能 够 由 这 个 正则 表达 式 匹 配 的 可 能 并 不 是 合法 的 主机 名 : 每 个 部 分 
不 能 超过 63 个 字符 。 也 就 是 说 ,'[-a-z0-9]* 应 该 改 为 ‘[-a-z0-9] {0,61},。 


还 需要 做 最 后 的 改动 。 按 规定 ， 只 包括 后 组 的 主机 名 同样 是 语意 正确 的 。 但 实践 证 明 ， 这 
些 “ 主 机 名 ”不 存在 ， 但 是 对 于 两 个 字母 的 后 组 来 说 情况 可 不 是 如 此 。 例 如 ， 安 哥 拉 的 域 
名 “ai” 就 有 一 个 Web 服务 器 http;y/Yai/。 我 见 过 其 他 这 样 的 链接 : cc, co, dk, mm, ph, 


tj, tv 和 tw。 


如 果 和 希望 匹配 这 些 特 殊 情况 ， 应 该 把 中 间 的 '(?:…) es (2) a 
(?i) # 进行 不 区 分 大 小 写 的 匹配 
# 零 个 或 多 个 据点 分 隔 的 部 分 
(?: [a-z0-9]\. | [a-z0-9] [-a-z0-9]{0,61}{a-z0-9]\. )* 
# ”然后 是 结尾 的 后 缓 部分. . . 
(?: com|edulgov! int Imillnetlorglbiz|infolnamelmseum|cooplaerol [a-z] [a-z) ) 
$ 
现在 它 可 以 用 来 验证 包含 主机 名 的 字符 串 了 。 因 为 这 是 我 们 想 出 的 与 主机 名 相关 的 三 个 正 
则 表达 式 中 最 复杂 的 ， 你 也 许 会 想 ， 不 要 这 些 锚 点 ， 可 能 比 之 前 那个 从 随机 文本 中 提取 主 
机 名 的 表达 式 更 好 。 但 情况 并 非 如 此 。 这 个 正则 表达 式 能 匹配 任意 双 字 母 单词 ， 正 因为 如 
此 ,第 2 章 中 不 那么 精妙 的 正则 表达 式 的 实际 效果 更 好 。 但 是 在 下 一 节 我 们 会 看 到 ， 某 些 
情况 下 它 仍然 不 够 完善 。 
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在 真实 世界 中 提取 URL 


Plucking Out a URL in the Real World 


供职 于 Yahoo! Finance 时 , 我 曾 写 过 处 理 收录 的 财经 新 闻 和 数据 的 程序 。 新闻 通常 是 以 纯 文 
本 格式 提供 的 , 我 的 程序 将 其 转化 为 HTML 格式 以 便于 显示 (如 果 你 在 过 去 10 年 中 曾经 在 
httpy/finance.yahoo.com 浏览 过 财经 新 闻 ， 没 惟 看 过 我 处 理 过 的 新 闻 ) 。 


因为 接受 的 数据 的 “格式 ”( 其 实 是 无 格式 ) 很 杂乱 , 从 纯 文 本 中 识别 (recognize) 出 hostname 
和 URL 又 比 验 证 (validate) 它们 困难 得 多 ， 这 任务 就 很 不 轻松 。 前 面 的 内 容 并 没有 体现 这 
一 点 ， 在 本 节 ， 你 会 看 到 我 在 Yahoo! 用 来 解决 这 个 问题 的 程序 。 


这 个 程序 从 文本 中 提取 几 种 类 型 的 URL——mailto, http, https 和 ftp。 如 果 我 们 在 文 

本 中 找到 htcp:// ,就 知道 这 肯定 是 一 个 URL 的 开头 ,所 以 我 们 可 以 直接 用 'http: //[-\w) 
+(\.w-vw]*)+i 来 匹配 主机 名 。 我 们 知道 ,要 处 理 的 文本 肯定 是 ASCI 编码 的 英文 字母 ， 

所 以 完全 可 以 用 -\w 来 取代 -a-z0-9j。Aw 同 样 可 以 匹配 下 画 线 ， 在 某 些 系 统 中 ， 它 还 可 

以 匹配 所 有 的 Unicode 字符 ， 但 是 我 们 知道 ， 这 个 程序 在 运行 时 不 会 遇 到 这 些 问题 。 


不 过 ，URL 通常 不 是 以 http:/ /或 者 mailto: 开 头 的 ， 例 如 : 
“Visit us at www.oreilly.com or mail to orders@oreilly .com'… 


在 这 种 情况 下 ,我 们 需要 加 倍 小 心 。 我 在 Yahoot 使 用 的 正则 表达 式 与 前 面 那 节 的 非常 相似 ， 
只 是 有 一 点 点 不 同 : 


(Pi: [a-z0-9] (?:[-a-z0-9]*[a-z0-9])? \. )+ # 子 域名 S 
# .Com 之 天 的 后 缓 . 要求 小 写 

(?-i: com\b 

edu\b 

biz\b 

org\b 

gov\b 

in(?:tifo)\b # .int 或 者 .info 

mil\b : 

net\b 

name \b 

museum\b 

coop\b 

aero\b 


[a-z] [a-z]\b t 双 字 母国 家 代码 


eee OO 一 一 一 一 一 


) 


在 这 个 正则 表达 式 中 , 我 们 用 和 (?i:…),; 和 '(?-i:…); 用 来 规定 正则 表达 式 的 某 个 部 分 是 否 
区 分 大 小 写 (135)。 我 们 希望 匹配 “www.OReilly .com ,但 不 是 “NT .To” 这 样 的 股票 


iii 
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代码 (NTTO 是 北 电网 络 在 多 伦 多 证 券 交易 市 场 的 代号 ， 因 为 要 处 理 的 是 财经 新 闻 和 数据 ， 
这 样 的 股票 代码 很 多 )。 按 规定 ，URL 的 结尾 部 分 (例如 “.com ) 可 能 是 大 写 的 ， 但 我 不 
准备 处 理 这 些 情况 。 因 为 我 需要 保持 平衡 一 一 匹配 期 望 的 文本 〈 尽 可 能 多 的 URL), GRA 
期 望 的 文本 (RERE). RPA (?-i:...) 只 包括 国家 代码 ， 但 是 在 现实 中 ， 我 们 没有 
遇 到 大 写 的 URL 地 址 ， 所 以 不 必 这 人 么 做 。 


下 面 是 从 纯 文本 中 查找 URL 的 框架 ， 我 们 可 以 在 其 中 添加 匹配 主机 名 的 子 表达 式 : 


\b 


# ”匹配 开头 部 分 (proto://hostname, AMMA hostname) 
{ 
# ftp://, http:// & https:// 开头 部 分 
(ftplhttps?) ://[(-\w]+(\.\w[-\w] *}+ 
| 
# 或 者 是 用 更 准确 的 子 表 达 式 找到 hostname 


full-hostname-regex 


# PRE Reo F 
( : \d+ )? 


# 下 面部 分 可 能 出 现 ， 以 /开头 
{ 
/ path-part 
)? 
我 还 没有 谈论 过 正则 表达 式 的 path (W) 部 分 ， 它 接 在 主机 名 后 面 (例如 http://www. 
orielly.com/catalog/regex/ 中 的 划 线 部 分 )。path 是 最 难 正确 匹配 的 文本 ， 因 为 它 需 要 
一 些 猜测 才能 做 得 很 漂亮 。 我 们 在 第 2 章 说 过 ， 通 常 出 现在 URL 之 后 的 文本 也 能 被 作为 
URL 的 一 部 分 。 例 如 ， 


Read his comments at http://www.oreilly.com/ask_tim/index.html. He... 


我 们 观察 之 后 就 会 发 现 , 在 “index.html ”之 后 的 句号 是 一 个 标点 ， 不 应 该 作为 URL 的 一 
部 分 ， 但 是 “index.html” 中 的 点 号 却 是 URL 的 一 部 分 。 


肉眼 很 容易 分 辨 这 两 种 情况 ， 但 程序 做 起 来 却 很 难 ， 所 以 必须 想 些 聪明 的 办 法 来 尽 可 能 好 
地 解决 问题 。 第 2 章 的 例子 使 用 逆序 环视 来 确保 URL 不 会 以 句 末 的 句号 结尾 。 我 在 Yahoo! 
Finance 写 程 序 时 还 没有 逆序 环视 ， 所 以 我 用 的 办 法 要 复杂 的 多 ， 不 过 效果 是 一 样 的 。 代 码 
在 下 一 页 。 
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示例 5-1: 从 财经 新 闻 中 提取 URL 


\b 
# 匹配 开头 部 分 (proto://hostname, AMM hostname) 
( 


# ftp://, http://& https:// 开头 部 分 
(ftpihttps?)://[-\w)+(\.\wl-\w) *) 4+ 

| 
# 或 者 是 用 更 准确 的 子 表达 式 找 到 hostname 
(?i: [a-z0-9] (?:{[~a-z0-9]*[a-z0-9])? \. )+ # sub domains 
# .com 之 类 的 后 级. EDS 
(?-i: com\b 

edu\b 

biz\b 

gov\b 

in(?:t|f£0)\b # .int 或 者 .info 

mil\b 

net \b 

org\b 

[a-z] [a-z]\b E 双 字 母国 家 代码 


) 
) 
# 可 能 出 现 疾 口号 
{ : \d+ )? 


E MPSS THAR, V/FK... 
( 


/ 
# 虽然 很 复杂 ， 但 确实 管用 
(*.!,2?3"'<>()\EN] (} \S\xX7F-\xFF] * 


[.!,?]+ (*%.8,272"'<>()N EN) C}\S\X7F-\xPF] + 





这 里 用 到 的 办 法 与 第 2 章 第 75 页 用 到 的 办 法 有 很 多 不 同 ， 比 较 起 来 也 很 有 意思 。 下 一 页 里 
使 用 此 表达 式 的 Java 程序 详细 介绍 了 它 的 构造 。 


在 实际 生活 中 ， 我 怀疑 自己 是 否 会 写 这 样 繁杂 的 正则 表达 式 ， 但 是 作为 取代 ， 我 会 建立 一 
个 正则 表达 式 “ 库 (library )”， 需 要 时 取 用 。 这 方面 一 个 简单 的 例子 就 是 第 76 页 的 
SHostnameRegex， 以 及 下 面 的 补充 内 容 。 


扩展 的 例子 


Extended Examples 


下 面 的 几 个 例子 讲解 了 一 些 关 于 正则 表达 式 的 重要 诀窍 。 讨 论 会 稍微 多 一 些 ， 关 于 解决 办 
法 和 错误 思路 的 着 墨 也 会 更 多 一 些 ， 最 终 会 给 出 正确 答案 。 


iti 
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在 Java 中 通过 变量 构建 正则 表达 式 


String SubDomain = "(?i:[a-z0-9] | [a-z0-9] [-a-z0-9]*[a-z0-9])"; 
String TopDomains = "(?x-i:com\\b \n" + 
| edu\ \b \n" + 
lbiz\\b \n" + 
lin(?:tIlfo)\\b \n" + 
|mil\\b \n" + 
[net \\b \n" + 
lorg\\b a = 
| {a-z} [a-z)\\b \n" + 
) \n" 3 
String Hostname = "(?:" + SubDomain + "\\.)+" + TopDomains; 


// country codes 


String NOT_IN = 
String NOT_END = 
String ANYWHERE = “"[*" + NOT_IN + NOT_END + "]"; 
String EMBEDDED = "[" + NOT_END + "]"; 
String UrlPath = "/"+ANYWHERE + "* ("+EMBEDDED+"+"+ANYWHERE+"+) *"; 
String Url = 
"(?x: \n"+ 
* ANS \n"+ 
## 匹配 hostname \n"+ 
( \n"+ 
(?: ftp | http s? ): // [-\\w])+(\\.\\w[-\\w) *) 4+ \n"+ 
| \n "+ 
" + Hostname + " \n"+ 


man \n"+ 


"SVP <>()NNIAA\ CONNSA\NRTF-\NXFF® ; 


"i p», 
ene 7 


# 可 能 出 现 端口 号 \n"+ 
(?: s\\d+ )? \n"+ 
\n"+ 

# 下 面 的 部 分 可 能 出 现 ， 以 \ 开 头 \n"+ 
(?: “ + UrlPath + ")? i \n"+ 


)°; 
// 现在 把 正则 表达 式 编译 为 正则 对 象 
Pattern UrlRegex = Pattern.compile(Url); 


// RERSALAPAM, Furl... 





保持 数据 的 协调 性 


Keeping in Syne with Your Data 


我 们 来 看 一 个 长 一 点 的 例子 ， 它 有 点 极端 ， 但 很 清楚 地 说 明了 保持 协调 的 重要 性 (同时 提 
供 了 一 些 保持 协调 的 方法 )。 


假设 , 需要 处 理 的 数据 是 一 系列 连续 的 5 位 数 美国 邮政 编码 (ZIP Codes), 而 需要 提取 的 是 
以 44 开头 的 那些 编码 。 下 面 是 一 点 抽样 ， 我 们 需要 提取 的 数值 用 粗 体 表示 : 


03824531449411615213441829505344272752010217443235 
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最 容易 想到 的 \a\a\d\a\d， 它 能 匹配 所 有 的 邮政 编码 。 在 Perl 中 可 以 用 @zips=m/\d\d\ 
d\d\a/g; 来 生成 以 邮政 编码 为 元 素 的 list (为 了 让 这 些 例 子 看 起 来 更 整洁 , 我 们 假设 需要 处 
理 的 文本 在 Perl 的 默认 目标 变量 $_ 中 ， 见 79)。 如 果 使 用 其 他 语言 ， 也 只 需要 循环 调用 正 
则 表达 式 的 find 方法 。 我 们 关注 的 是 正则 表达 式 本 身 ， 而 不 是 语言 的 实现 机 制 ， 所 以 下 面 
继续 使 用 Perl。 


lA) addaa, 下面 提 到 的 这 一 点 很 快 就 会 体现 出 其 价值 ， 在 整个 解析 过 程 中 ， 这 个 
正则 表达 式 任何 时 候 都 能 够 匹配 一 一 绝对 没有 传动 装置 的 驱动 和 重 试 (我 假设 所 有 的 数据 
都 是 规范 的 ， 此 假设 与 具体 情况 密切 相关 ) 。 


很 明显 ， 把 \avava\a\d 改 为 "44\dva\di 来 查找 以 44 开头 的 邮政 编码 不 是 个 好 办 法 一 一 
匹配 失败 之 后 , 传动 装置 会 驱动 前 进 一 个 字符 , 对 44…! 的 匹配 不 再 是 从 每 个 邮政 编码 的 第 
一 位 开始 。44\da\da\d 会 错误 地 匹配 “…5314494116… " 。 


当然 , 我 们 可 以 在 正则 表达 式 的 开头 添加 “ai, 但 是 这 样 只 能 对 付 一 行文 本 中 的 第 一 个 邮政 
编码 。 我 们 需要 手动 保持 正则 引擎 的 协调 ， 才 能 忽略 不 需要 的 邮政 编码 。 这 里 的 关键 是 ， 
要 跳 过 完整 的 邮政 编码 ， 而 不 是 使 用 传动 装置 的 驱动 过 程 (bump-along) 来 进行 单个 字符 的 
移动 。 


根据 期 望 保持 匹配 的 协调 性 


下 面 列举 了 几 种 办 法 用 来 跳 过 不 需要 的 邮政 编码 。 把 它们 添加 到 正则 表达 式 44\avd\d' 之 
前 ， 可 以 获得 期 望 的 结果 。 非 捕获 型 括号 用 来 匹配 不 期 望 的 邮政 编码 ， 这 样 能 够 快速 地 略 
过 它们 ， 找 到 匹配 的 邮政 编码 ， 在 第 一 个 $1 的 捕获 括号 中 


'(?:(*4]\d\d\d\dl\d(*4] \d\d\d)*.…" 
这 种 硬 办 法 (bmute-force method) 主动 略 过 非 44 开头 的 邮政 编码 (当然 , FA ' (1235-9), 
替代 【^4], 可 能 更 合适 , 但 我 之 前 说 过 , 假设 处 理 的 是 规范 的 数据 )。 注意 , 我 们 不 能 
使 用 “(?:[^4][^4]\a\ad\q)*,， 因 为 它 不 会 匹配 (也 就 无 法 略 过 ) 43210 这 样 不 期 望 
的 邮政 编码 。 

(23 (2144) \d\d\d\d\d) +e 
这 个 办 法 跳 过 非 44 开头 的 邮政 编码 。 其 中 的 想法 与 之 前 并 无 差别 , 但 用 正则 表达 式 写 
出 来 就 显得 大 不 一 样 。 比 较 这 两 段 描述 和 相关 的 正则 表达 式 就 会 发 现 ， 在 这 里 ， 期 望 
的 邮政 编码 (以 44 开头 ) 导致 逆序 环视 (2144) 失败 ， 于 是 略 过 停止 。 
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(22 \d\d\d\d\d) +t?) 


这 个 办 法 使 用 忽略 优先 量词 ， 只 有 在 需要 的 时 候 才 略 过 某 些 文本 。 我 们 把 它 放 在 真正 
需要 匹配 的 正则 表达 式 前 面 ， 所 以 如 果 那 个 表达 式 失败 ， 它 就 会 匹配 一 个 邮政 编码 。 
忽略 优先 〈…)*?1 导 致 这 一 切 的 发 生 。 因 为 存在 忽略 优先 量词 ，(?: \ava\va\d\d) 4# 
至 都 不 会 尝试 匹配 ， 在 后 面 的 表达 式 失败 之 前 。 昨 号 确保 了 ， 它 会 重复 失败 ， 直 到 最 
终 找到 匹配 文本 ， 这 样 就 能 只 跳 过 我 们 希望 跳 过 的 文本 。 


把 这 个 表达 式 和 '(44\d\a\qd); 合 起 来 ， 就 得 到 ， 
@zips=m/{?:\d\d\d\d\d)*?(44\d\d\d) /g; 

它 能 够 提取 以 44 开头 的 邮编 ， 而 主动 跳 过 其 他 的 邮编 (在 “earray = m/…/g” 的 情况 下 ， 

Perl 会 用 每 次 尝试 中 找到 的 匹配 文本 来 填充 这 个 数组 ,了 311)。 这 个 表达 式 能 够 重复 应 用 于 


字符 串 ， 因 为 我 们 知道 每 次 匹配 的 “起 始 匹配 位 置 ” 都 是 某 个 邮政 编码 的 开头 位 置 ， 也 就 
保证 下 一 次 匹配 是 从 一 个 邮政 编码 的 开始 ， 这 正 是 正则 表达 式 期 望 的 。 





不 匹配 时 也 应 当 保证 协调 性 


我 们 是 否 能 保证 ， 每 次 正则 表达 式 都 在 邮政 编码 字符 串 的 开头 位 置 应 用 ?显然 不 是 ! 我 们 
手动 跳 过 了 不 符合 要 求 的 邮政 编码 ， 可 一 旦 不 需要 继续 匹配 ， 本 轮 匹配 失败 之 后 自然 就 是 
驱动 过 程 和 重 试 ， 这 样 就 会 从 邮政 编码 字符 捉 之 中 的 某 个 位 置 开始 一 一 我 们 的 方法 不 能 处 
理 这 种 情况 。 


再 来 看 数据 样本 : 


03824531449411615213441829503544272 7 5 2 010217443235 

匹配 的 代码 以 粗 体 标注 (第 三 组 不 符合 要 求 )， 主 动 跳 过 的 代码 以 下 画 线 标注 ， 通 过 驱动 过 
程 - 重 试 略 过 的 字符 也 标记 出 来 。 在 44272 匹配 之 后 ， 目 标 文本 中 再 也 找 不 到 匹配 ， 所 以 本 
轮 尝试 宣告 失败 。 但 总 的 尝试 并 设 有 宣告 失败 。 传 动机 构 会 进行 驱动 ， 从 字符 串 的 下 一 -个 
字符 开始 应 用 正则 表达 式 ， 这 样 就 破坏 了 协调 性 。 在 第 四 次 驱动 之 后 ， 正 则 表达 式 略 过 
10217， 错 误 地 匹配 44323, 


如 果 在 字符 串 的 开头 应 用 ， 这 三 个 表达 式 都 没有 问题 ， 但 是 传动 装置 的 驱动 过 程 会 破坏 协 
调 性 。 如 果 我 们 能 取消 驱动 过 程 ， 或 者 保证 驱动 过 程 不 会 添 麻烦 ， 问 题 就 解决 了 。 


办 法 之 一 是 禁止 驱动 过 程 , 即 在 前 两 种 办 法 中 的 (44\a\d\q) 1 之 后 添加 '?1, 将 其 改 为 匹配 
优先 的 可 选项 。 这 样 ， 刻 意 安排 的 !(?:(?!44) \d\vdava\a\vd)*… 或 5(?:[^4l\vavavavdlNa 
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[74] \G\G\ 4) *- 就 只 会 在 两 种 情况 下 停止 : 发 生 符合 要 求 的 匹配 , 或 者 邮政 编码 字符 串 结 
R (这 也 是 此 方法 不 适用 于 第 三 个 表达 式 的 原因 )。 这 样 ， 如 果 存 在 符合 要 求 的 邮政 编码 ， 
'(44\@\qG\d) ?1 就 能 匹配 ， 而 不 会 强迫 回溯 。 


这 个 办 法 仍然 不 够 完善 。 原 因 之 一 是 ， 即 便 目标 字符 串 中 没有 符合 要 求 的 邮政 编码 ， 也 会 
匹配 成 功 ， 接 下 来 的 处 理 程序 会 变 得 更 复杂 。 不 过 ， 其 优点 在 于 速度 很 快 ， 因 为 不 需要 回 
溯 ， 也 不 需要 传动 装置 进行 任何 驱动 过 程 。 


使 用 \G 保证 协调 


更 通用 的 办 法 是 在 这 三 个 表达 式 末 足 添加“\G, (也 130)。 因 为 每 个 表达 式 的 每 次 匹配 都 以 符 
合 要 求 的 邮政 编码 结尾 ,下 次 匹配 开始 时 就 不 会 进行 驱动 。 而 如 果 有 驱动 过 程 ， 开头 的 G 
会 立刻 导致 匹配 失败 ， 因 为 在 大 多 数 流派 中 ， 只 有 在 未 发 生 驱 动 过 程 的 情况 下 ， 它 才能 成 
功 匹配 〈 但 在 Ruby 和 其 他 规定 \GI 表 示 “ 本 次 匹配 起 始 位 置 ” 的 流派 中 不 成 立 灾 131) 


所 以 第 二 个 表达 式 就 变 成 了 : 


@zips = m/\G(?: (?!44)\d\d\d\d\d) *(44\d\d\d)/g; 


匹配 之 后 不 需要 进行 任何 特殊 检查 。 


本 例 的 意义 


我 首先 承认 ， 这 个 例子 有 点 极端 ， 不 过 ， 它 包含 了 许多 保证 正则 表达 式 与 数据 协调 性 的 知 
识 。 如 果 现 实生 活 中 需要 处 理 这 样 的 问题 ， 我 可 能 不 会 完全 用 正则 表达 式 来 解决 。 我 会 直 
接 用 a\a\a\a\al 来 提出 每 个 邮政 编码 , 然后 检查 它 是 否 以 “44 Fk, 在 Perl 中 是 这 样 : 


@zips = ( ); # 确保 数组 为 空 


while (m/(\d\d\d\d\d)/g) { 
$zip = $1; 
if (substr($zip, 0, 2) eq "44") { 
push @zips, $zip; 
} 
} 


对 \G, 有 兴趣 的 读者 请 参考 132 页 的 补充 内 容 ， 尽 管 本 书写 作 时 只 能 举 Perl 的 例子 。 


ltl 


www.TopSage.com 


扩展 的 例子 213 


解析 CSV 文件 


Parsing CSV Files 


解析 CSV (逗号 分 隔 值 ) 文件 有 点 麻烦 ， 因 为 每 个 程序 都 有 自己 的 CSV 文件 格式 。 首 先 来 
看 如 何 解析 Microsoft Excel 生成 的 CSV 文件 ,然后 再 看 其 他 格式 ( 注 3)。 幸 运 的 是 ,Microsoft 
的 格式 是 最 简单 的 。 以 逗号 分 隔 的 值 要 么 是 “纯粹 的 ”( 仅 仅 包 含 在 括号 之 前 )， 要 么 是 在 
双 引 号 之 间 (这 时 数据 中 的 双 引 号 以 一 对 双 引 号 表示 )。 


下 面 是 个 例子 : 
Ten Thousand,10000, 2710 ,,"10,000","It's ""10 Grand"", baby",10K 


这 一 行 包 含 七 个 字段 (fields): 


Ten*Thousand 

10000 

°2710° 

空 字段 

10,000 
It's*"10*Grand", baby 
10K 


为 了 从 此 行 解析 出 各 个 字段 ， 我 们 的 正则 表达 式 需要 能 够 处 理 两 种 格式 。 非 引号 格式 包含 
引号 和 逗号 之 外 的 任何 字符 ， 可 以 用 [^",]+ 匹配 。 


双 引 号 字段 可 以 包含 逗号 、 空 格 ， 以 及 双 引 号 之 外 的 任何 字符 。 还 可 以 包含 连 在 一 起 的 两 
个 双 引 号 。 所 以 , 双 引 号 字段 可 以 由 “"…" 之 间 任 意 数量 的 "[^"]1" "匹配 ,也 就 是 '" (?: [^"] 
Ieru (为 效率 考虑 ， 我 们 可 以 使 用 固化 分 组 '(?>…) ,来 替代 '(?:…),， 不 过 这 个 话题 留 
到 下 一 章 卫 259)， 


综合 起 来 ,[^",]+1"(?:[^"]1"")*") 能 够 匹配 一 个 字段 ,。 这 可 能 有 点 难看 慌 ， 下面 我 们 给 
出 宽松 排列 (了 111) 格式 : 


# 引号 和 过 号 之 外 的 文本 . . . 
[^";]+ 
# .. .或 者 是 ... 
| 
# ... 双 引号 字段 (其 中 容许 出 现 连 在 一 起 的 成 对 双 引 号 ) 
" # 起 始 双 引号 
(?: [*"] | an )* 
" # kai 


注 3: 在 第 6 章 ， 讨论 完 效率 问题 之 后 ， 会 给 出 处 理 Microsoft Excel 的 最 终 程序 (7271), 
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现在 这 个 表达 式 可 以 实际 应 用 到 包含 CSV 文本 行 的 字符 串 上 了 ， 但 如 果 我 们 希望 真正 利用 
匹配 结果 ， 就 应 该 知道 具体 是 哪个 多 选 分 支 匹 配 了 。 如 果 是 双 引 号 字符 种， 就 需要 去 掉 首 
尾 两 端的 双 引 号 ， 把 其 中 紧 挨 着 的 两 个 双 引 号 替换 为 单个 双 引 号 。 


我 能 想到 的 办 法 有 两 个 。 其 一 是 检查 匹配 结果 的 第 一 个 字符 是 否 双 引号 ， 如 果 是 ， 则 去 掉 
第 一 个 和 最 后 一 个 字符 ( 双 引 号 )， 然 后 把 中 间 的 “"" ”替换 为 “”" 。 这 办 法 够 简单 ， 但 如 
果 使 用 捕获 型 括号 会 更 简单 。 如 果 我 们 给 捕获 字段 的 每 个 子 表达 式 添 加 捕获 型 括号 ， 可 以 
在 匹配 之 后 检查 各 个 分 组 的 值 : 


# 引号 和 到 号 之 外 的 文本 .,. 

Ct" J+) 

# asx 或 者 是 ... 
| 

# ... 双 引号 字段 (其 中 容许 出 现 连 在 一 起 的 成 对 双 引 号 ) 
# 起 始 双 引号 

人 
" # 结束 双 引 号 


如 果 是 第 一 个 分 组 捕获 ， 则 不 需要 进行 任何 处 理 ， 如 果 是 第 二 个 分 组 ， 则 只 需要 把 “"” 
替换 为 “"” 即 可 。 


下 面 给 出 Perl 的 程序 ， 稍 后 〈 找 出 某 些 bug 之 后 ) 给 出 Java 和 VB.NET (在 第 10 章 给 出 
PHP 的 程序 ?480)。 下 面 是 Perl 程序 ， 假 设 数据 位 于 sline 中 ， 而 且 已 经 去 掉 了 结尾 的 换 
行 符 (换行 符 不 属于 最 后 的 字段 1)， 


while ($line =~ m{ 
# 引号 和 运 号 之 外 的 文本 . .， 
( [*",]+ ) 
t.. AKR... 
| 
# ... 双 引号 字段 (其 中 容许 出 现 连 在 一 起 的 成 对 双 引 号 ) 
" # 起 始 双 引 号 
{ ae aie WE) Pa Nala | 
" E 结束 双 引 号 
}gx) 
{ 
if (defined $1) { 
$field = $1; 
} else į 
$field = $2; 
$field =~ s/""/"/g; 
} 
print "($field)"; # 输出 Sfield 供 调试 
现在 可 以 处 理 Sfield 了 ... 
} 
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将 其 应 用 于 测试 数据 ， 结 果 为 : 


[Ten*Thousand}] {10000} [*2710°] [10,000] [It's*"i0*Grand",*baby] [10K] 


看 来 没 问 题 ， 但 不 幸 的 是 它 不 会 输出 为 空 的 第 四 个 字段 。 如 果 “ 处 理 sfield” 是 将 字段 的 
值 存 人 数组 ， 完 成 后 访问 数组 的 第 五 个 元 素 得 到 第 五 个 字段 (“10,000")。 这 显然 不 对 ， 因 
为 数组 的 元 素 与 空 字段 不 对 应 。 


想到 的 第 一 个 办 法 是 把 '[^*",]+j 改 为 '[^*,]*!， 这 看 来 是 显而易见 的 ， 但 它 正确 吗 ? 
{Ten*Thousand] [] (i10000] [] (*2710*] [] (] [} [10,000] []{) {It's**10*Grand", = 


E, 现在 出 来 了 一 堆 空 字段 ! 仔细 检查 检查 , 就 不 会 这 么 吃惊 。(…) * 的 匹配 可 以 不 占用 任 
何 字 符 。 如 果真 的 遇 到 空 字段 ， 确 实 能 匹配 ， 那 么 考虑 第 一 个 字段 匹配 之 后 的 情况 呢 ， 此 
时 正则 表达 式 从 “Ten*Thousanad,,10000…” 开 始 应 用 。 如 果 表 达 式 中 没有 元 素 可 以 匹配 去 
号 (就 本 例 来 说 )， 就 会 发 生长 度 为 0 的 成 功 匹 配 。 实 际 上 ， 这 样 的 匹配 可 能 有 无 穷 多 次 ， 
因为 正则 引擎 可 能 在 同一 位 置 重复 这 样 的 匹配 ， 现 代 的 正则 引擎 会 强迫 进行 驱动 过 程 ， 所 
以 同一 位 置 不 会 发 生 两 次 长 度 为 0 的 匹配 (131)。 所 以 每 个 有 效 匹 配 之 间 还 有 一 个 空 匹 
配 ， 在 每 个 引号 字段 之 前 会 多 出 一 个 空 匹配 (而且 数组 末尾 还 会 有 一 个 空 匹配 ， 只 是 此 处 
没有 列 出 来 ) 。 


分 解 驱动 过 程 


要 解决 问题 ， 我 们 就 不 能 依赖 传动 机 构 的 驱动 过 程 来 越过 逗号 。 所 以 ， 我 们 需要 手工 来 控 
制 。 能 想到 的 办 法 有 两 个 : 


1. 手工 匹配 逗号 。 如 果 采 取 此 办 法 ， 需 要 把 逗号 作为 普通 字段 匹配 的 一 部 分 ， 在 字符 串 中 


“迈步 (pace ourselves)”, 
2. 确保 每 次 匹配 都 从 字段 能 够 开始 的 位 置 开 始 。 字 段 可 以 从 行 首 ， 或 者 是 逗号 开始 。 


可 能 更 好 的 办 法 是 把 两 者 结合 起 来 。 从 第 一 种 办 法 (匹配 逗号 本 身 ) HR, ARBRE 
号 出 现在 第 一 个 字段 之 外 的 所 有 字段 开头 。 或 者 ， 保 证 逗号 出 现在 最 后 一 个 字段 之 外 的 所 
有 字段 的 末尾 。 可 以 在 表达 式 前 面 添 加 “1,,， 或 者 后 面 添 加 '$1,，,， 用 括号 控制 范围 。 


www.TopSage.com 


216 %58. 正则 表达 式 实用 技巧 


在 前 面 添 加 ， 就 得 到 : 


Pal 

(?: 
# 引号 和 送 号 之 外 的 文本 .... 
te 

# ... 或 者 是 .. 

| 
# 1... 双 引 号 字段 (其 中 容许 出 现 连 在 一 起 的 成 对 双 引 号 ) 
" # 起 始 双 引号 
| ee) se 9 
" # 结束 双 引 号 

) 


看 起 来 它 应 当 没 错 ， 但 实际 的 结果 却 是 ， 
[Ten*Thousand] [10000] (*2710*) [] [] [000] [) [*baby] [10K] 
而 我 们 期 望 的 是 : 


[Ten*Thousand] [10000] [*2710°] [] [10,000] {It's*"1l0*Grand",*baby] [10K] 


问题 出 在 哪里 呢 ? 似乎 是 双 引 号 字段 没有 正确 处 理 ， 所 以 问题 出 在 它 身 上 ， 对 吗 ? 不 对 ， 
问题 在 前 面 。 或 许 176 页 的 告诫 有 所 帮助 : 如 果 多 个 多 选 分 支 能 够 在 同一 位 置 匹配 ， 必 须 
小 心地 排列 顺序 。 第 一 个 多 选 分 支 [~",]*, 不 需要 匹配 任何 字符 就 能 成 功 ， 除 非 之 后 的 元 
素 强 迫 ， 否 则 第 二 个 多 选 分 支 不 会 获得 尝试 的 机 会 。 而 这 两 个 多 选 分 支 之 后 没有 任何 元 素 ， 
所 以 第 二 个 多 选 分 支 永 远 不 会 得 到 尝试 的 机 会 ， 这 就 是 问题 所 在 ! 


哇 ， 现 在 我 们 已 经 找到 了 问题 所 在 。OK ， 交 换 一 下 多 选 分 支 的 顺序 : 


(?3*|,} 
(2: # 或 者 是 匹配 双 引 号 字段 (其 中 容许 出 现 连 在 一 起 的 成 对 双 引 号 ) nn. 
" # (起 始 双 引号 ) 
( (Fs [^"] | ee )* ) 
" # (起 始 双 引号 ) 
| 
# ..。 或 者 是 引号 和 过 号 之 外 的 文本 . . . 
{ [^",]*) 
) 


HT! BPM ABR T. MRR, HG? 本 节 的 标题 是 “分 解 驱 
动 过 程 ”, 而 最 保险 的 办 法 就 是 以 完整 测试 作为 基础 的 思考 , 故 可 以 用 "G1 来 确保 每 次 匹配 
从 上 一 次 匹配 结束 的 位 置 开始 。 考 虑 到 构建 和 应 用 正则 表达 式 的 过 程 ， 这 样 做 应 该 绝对 没 
问题 。 如 果 在 表达 式 开始 添加 "G1, 就 会 禁止 引擎 的 驱动 过 程 。 我们 希望 这 样 修改 不 会 出 问 
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题 ， 但 是 结果 并 非 如 此 。 之 前 输出 


[Ten*Thousand] [10000] {*2710*] [] [] [000) [] [*baby) [10K] 


的 正则 表达 式 添 加 \G 之 后 ， 得 到 
[Ten-Thousand] [10000] [*2710*] [] [] 


如 果 起 初 没 看 明白 ， 这 样 看 会 更 明显 。 


CSV Processing in Java 


这 里 有 一 个 使 用 Sun 的 java.util.regex 解析 CSYV 的 例子 。 这 段 程 序 着 眼 于 简洁 的 、 
更 有 效 的 版 本 一 一 第 8 章 (7401) 将 会 介绍 。 


import java.util.regex.*; 


String regex = // 把 双 引 号 字段 存 入 group (1)、 非 引号 字段 存 入 group (2) 
AGE 让 全 \n"+ 
lls at \n"+ 

# 要 么 是 双 引 号 字段 ... \n"+ 
\" # 字段 起 始 双 引号 \n"+ 
{he EON" Toe) ASA” F843 \n"+ 
y # 字段 结束 双 引 号 \n"+ 
| # ... BZA... \n"+ 
# 非 引号 非 运 号 文本 ... \n"+ ¢ 
( ea ea = \n"+ 
) yars 
// 创建 使 用 上 面 正 则 表达 式 的 matcher， 暂 时 不 指定 需要 应 用 的 文本 
Matcher mMain = Pattern.compile( regex, Pattern.COMMENTS) .matcher(""); 


// 为 "") 创 建 一 个 matcher， 暂 时 不 指定 需要 应 用 的 文本 


Matcher mQuote = Pattern.compile("\"\"").matcher(""); 


// 上 面 都 是 准备 工作 ， 下 面 的 代码 逐 行 处 理 文 本 
mMain.reset( line); // 下 面 处 理 1ine 中 的 CSV 文本 
while { mMain.find()) 
{ 
String field; 
if ( mMain.start(2) >= 0) 
field = mMain.group(2); // 非 引 号 字段 ， 直 接 使 用 
else 
// 引号 字段 ， 替 摘 其 中 的 成 对 双 引 号 
field = mQuote.reset (mMain.group(1)).replaceAll("\""); 
// 处 理 字 段 ... 
System.out .println("Field [" + field + "]"); 
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另 一 个 办 法 


本 节 的 开头 提 到 有 两 种 办 法 正确 匹配 各 个 字段 。 之 二 是 确保 匹配 只 能 在 容许 出 现 字段 的 地 
方 开始 。 从 表面 上 看 ， 这 类 似 于 添加 “1,,， 只 是 使 用 了 逆序 环视 “(?<=^1,)。 


不 幸 的 是 ， 按 照 第 3 章 (7133) 的 解释 ， 即 使 可 以 使 用 逆序 环视 ， 也 不 见得 能 够 使 用 变 长 
的 逆序 环视 ， 所 以 此 方法 可 能 无 法 使 用 。 如 果 问 题 在 于 长 度 可 变 ， 我 们 可 以 把 (?<=^1,)， 
替换 为 (?:^1(?<=, ) ),， 但 是 相 比 第 一 种 办 法 ， 它 太 麻烦 了。 而 且 ， 它 仍然 依赖 传动 装置 
的 驱动 过 程 来 越过 逗号 ， 如 果 别 的 地 方 出 了 什么 差错 ， 它 会 容许 在 “…"10,.000"…” 处 的 
匹配 。 总 的 来 说 就 是 ， 不 如 第 一 种 办 法 保险 。 





不 过 我 们 可 以 略 施 小 计 一 一 要 求 匹配 在 逗号 之 前 (或 者 是 一 行 结束 之 前 ) 结束 。 在 表达 式 
结尾 添加 (?=$1,); 可 以 确保 它 不 会 进行 错误 的 匹配 。 实 际 生活 中 , 我 会 这 样 做 吗 ? 直率 地 
说 我 觉得 第 一 种 方法 很 合用 ， 所 以 遇 到 这 种 情况 我 可 能 不 会 采取 第 二 种 办 法 ， 不 过 如 果 需 
要 ， 这 技巧 却 是 很 有 用 的 。 


进一步 提高 效率 


尽管 在 下 一 章 之 前 都 不 会 谈论 效率 ， 但 对 于 支持 固化 分 组 (139) 的 系统 ， 我 还 是 愿意 在 
这 里 给 出 提高 效率 的 修改 : 把 匹配 双 引 号 字段 的 子 表达 式 从 O: ito” A 
?>[^*]+1"")*。 下 一 页 用 VB.NET 的 例子 做 了 说 明 。 


如 果 像 Sun 的 Java regex package 那样 支持 占有 优先 量词 (了 142)， 也 可 以 使 用 占有 优先 量 
ia], Java CSV 程序 的 补充 内 容 说 明了 这 一 点 。 


这 些 修 改 背后 的 道理 会 在 下 一 章 讲解 ， 最 终 我 们 会 在 271 页 给 出 效率 最 高 的 办 法 。 


其 他 CSV 格式 


Microsoft 的 CSV 格式 很 流行 ， 因 为 它 是 Microsoft 的 CSV 格式 , 但 其 他 程序 可 能 有 不 同 格 
A, 我 见 过 的 情况 还 有 : 


° ”使 用 任意 字符 ， 例 如 ' ; ' 或 者 制 表 符 作为 分 隔 。( 不 过 这 样 名 字 还 能 叫 “ 逗 号 分 隔 值 ” 
吗 ? ) 


° 容许 分 隔 符 之 后 出 现 空格 ， 但 不 把 它们 作为 值 的 一 部 分 。 
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。 ”用 反 斜 线 转 义 引号 (例如 用 “\"” 而 不 是 ““" ”类 表示 值 内 部 的 引号 )。 通 常 这 意味 着 
反 斜 线 可 以 在 任何 字符 前 出 现 ( 并 忽略 )。 


这 些 变化 都 很 容易 处 理 。 第 一 种 情况 只 需要 把 逗号 替换 为 对 应 的 分 隔 符 ， 第 二 种 只 需要 在 
第 一 个 分 隔 符 之 后 添加 疏 s*,， 例 如 以 “3?:^1 er 开头 。 


第 三 种 情况 , 我 们 可 以 用 之 前 的 办 法 (7198), HE a ERR 当然 ， 
我 们 必须 把 后 面 的 e/""/"/g 改 为 更 通用 的 se/\\(.)/$1/g， 或 者 对 应 语言 中 的 代码 。 


VB.NET 的 CSV 处 理 


Imports System.Text.RegularExpressions 


Dim FieldRegex as Regex = New Regex ( 
Ss 
a 
: (?# 要 么 是 双 引 号 字段 ...) 
" "u (28 字段 起 始 双 引号 ) 
“ ( {?> [**"} 4+ | “hon )* ) 
" e" (28 字段 结束 双 引 号 ) 
EIP. ce. BE cael 


(2# ... 非 引 号 非 过 号 文本 ...) 
E ai A 
“ )", RegexOptions.IgnorePatternWhitespace) 
Dim QuotesRegex as Regex = New Regex(" "" "n ") ' 双 引 号 字符 囊 


RR 


Dim FieldMatch as Match = FieldRegex.Match (Line) 
While FieldMatch.Success 
Dim Field as String 
If FieldMatch.Groups(i).Success 
Field = QuotesRegex.Replace(FieldMatch.Groups(1).Value, *""") 
Else 
Field = FieldMatch.Groups(2).Value 
End If 


Console.WriteLine("{" & Field & "]") 
' 现在 可 以 处 理 'Field' 


FieldMatch = FieldMatch.NextMatch 
End While 





iii 


www.TopSage.com 


www. TopSage.com 





打造 高 效 正则 表达 式 


Crafting an Efficient Expression 


Perl、Java、.NET、Python 和 PHP (这 里 没有 列 全 ， 其 他 语言 请 参考 第 145 页 的 表格 ) 使 
用 的 都 是 表达 式 主导 的 NFA 引擎 ,细微 的 改变 就 可 能 对 匹配 的 结果 及 方 式 产生 重大 的 影响 。 
DFA 中 不 存在 的 问题 ， 对 NFA 来 说 却 很 重要 。 因 为 NFA 引擎 容许 用 户 进行 精确 控制 ， 所 
以 我 们 可 以 用 心 打 造 (译注 1) 正则 表达 式 ， 但 对 不 熟悉 的 人 来 说 ， 这 样 可 能 会 带 来 麻烦 。 
本 章 讲解 的 就 是 调 校正 则 表达 式 的 诀窍。 


调 校 表 达 式 时 需要 考虑 的 两 个 因 素 是 准确 性 和 效率 ， 精 确 匹配 我 们 需要 的 文本 ， 不 包含 多 

the 54 sey pT ot 现在 我 们 来 考察 NFA 引擎 的 效 
率 ， 以 及 如 何 有 效 地 利用 这 些 知 识 《我 们 会 在 合适 的 时 候 提 到 DFA 的 问题 ， 不 过 本 章 主要 
关注 的 还 是 基于 NFA 的 引擎 ) 总 的 来 办 在 于 彻底 理解 加 尖 朋 后 的 过 程 学 习 些 技 
waa, wean eee oti 制 的 细 划 之 后 ， 读 者 不 但 能 够 把 匹配 的 速度 提 
到 最 高 ， 写 更 复杂 的 正 由 表达 \ 时 也 会 更 有 信心 。 



















本 章 内 容 


OEE, AA PAJURA 
ja et 然后 我 们 会 考 

的 实质 性 影响 ， 还 要 讲解 ， 针 对 
ua, 传授 一 些 终极 技巧 ， 


为 了 让 读者 彻底 掌握 这 此 知识 | Bae 
m, ana UA 的 影响 
察 一 些 常见 的 内 部 
具体 实现 方式 ,条 
来 构建 快 如 二 地 


译注 1: 此 处 craft 翻译 为 “打造 ”"， 下 安利 有 时 翻译 为 “ 调 校 ” 
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测试 与 回溯 


我 们 将 看 到 的 例子 代表 了 使 用 正则 表达 式 时 经 常 遇 到 的 情况 。 在 分 析 某 个 的 正则 表达 式 的 
效率 时 ， 我 有 时 会 列 出 正则 引擎 在 匹配 过 程 中 进行 的 独立 测试 (individual test) 的 次 数 。 如 
果 用 正则 表达 式 marty 匹配 smarty， 一 共 会 进行 6 次 独立 测试 ， 首 先是 m 对 s (匹配 失 
败 )， 然 后 是 mitm, ‘aR a, 依次 继续 。 我 通常 会 给 出 回溯 的 次 数 ( 本 例 中 回溯 次 数 为 0， 
不 过 ， 正 则 引擎 的 传动 装置 必然 会 在 第 二 个 字符 处 重 试 正 则 表达 式 ， 这 或 许可 以 算 作 一 次 
maA) 


之 所 以 要 列 出 这 些 数字 ， 并 不 是 为 表明 精确 性 ,而 是 因为 它们 比 “ 许 多 ”、“ 少 量 "、“ 多 次 ”、 
“更 好 ”"、“ 不 太 多 ”之 类 更 为 准确 。 我 的 意思 不 是 说 ， 在 NFA 上 使 用 正则 表达 式 需 要 精确 
地 考察 测试 和 回溯 的 次 数 ， 我 只 是 希望 让 读者 知道 这 些 例子 的 相对 优 劣 。 


男 一 个 重要 的 问题 是 ， 你 必须 意识 到 这 些 “ 精 确 ” | 的 数字 可 能 根据 工具 的 不 同 而 有 所 不 同 。 
我 期 望 读 者 能 够 知道 ， 它 只 是 钊 对 具体 例 忆 的 、 相 对 的 粗略 表现 。 不 同 工 具 之 间 的 一 个 重 
要 区 别 就 是 ， 它 们 可 能 使 用 的 优化 措施 不 同 。 如 果 能 够 预先 判断 目标 字符 串 基 本 无 法 匹配 
(例如 目标 字符 捉 缺 少 一 个 引擎 能 够 预知 的 ， 匹 配 成 功 必 须 的 字符 )， 足 够 聪明 的 实现 方式 
可 以 完全 不 应 用 正则 表达 式 。 我 在 本 章 讨论 宪 这 些 重 要 的 优化 措施 ， 不 过 普遍 原理 比 具体 
问题 更 为 重要 。 


传统 型 NFA 还 是 POSIX NFA 


在 分 析 效 率 时 ， 一 定 不 要 忘记 所 使 用 工具 的 引擎 类 型 : 传统 型 NFA 还 是 POSIX NFA。 下 一 
节 中 我 们 会 看 到 ， 有 些 问题 只 对 某 种 引擎 存在 。 有 的 改变 可 能 对 其 中 之 一 没有 影响 ， 对 另 
一 个 却 有 极 大 的 影响 。 还 是 那 句 话 ， 理 解 基本 原理 ， 就 能 应 付 各 种 情况 。 


典型 示例 


A Sobering Example 


首先 来 看 一 个 真正 体现 回溯 和 效率 的 重要 性 的 例子 。 在 198 页 , RHA” O Ane 
来 匹配 引号 字符 串 , 其 中 容许 出 现 转 义 的 双 引 号 。 这 个 表达 式 没有 错 , 但 如 果 我 们 使 用 NFA 
引擎 ， 对 每 个 字符 都 应 用 多 选 结构 的 效率 就 会 很 低 。 对 字符 申 中 每 个 “正常 ”( 非 转 义 、 非 
引用 ) 的 字符 来 说 ， 这 个 引擎 需 要 测试 \ .,， 遇 到 失败 后 回 滴 ， 最 终 由 [~^\\" 11 匹配。 如 
果 效 率 不 容 忽 视 ， 就 应 该 做 些 改 动 来 加 快 匹配 速度 。 
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稍 加 修改 一 一 先 迈 最 好 使 的 腿 


A Simple Change—Placing Your Best Foot Forward 


对 于 一 般 的 双 引 号 字符 串 来 说 ， 普 通 字符 的 数量 比 转 义 字 符 要 多 ， 一 个 简单 的 改动 就 是 调 
换 两 个 多 选 分 支 的 顺序 , 把 I^\\"], 放 到 \ 八 ., 之 前 。 这 样 ， 只 有 在 遇 到 字符 串 中 的 转 义 字 
符 时 才 会 按照 多 选 结构 进行 回溯 (还 有 一 次 回溯 是 星 号 无 法 匹配 引起 的 ， 此 时 所 有 的 多 选 
分 支 都 匹配 失败 ， 所 以 整个 多 选 结构 无 法 匹配 )。 图 6-1 说 明了 其 中 的 差异 。 稍 头 数量 的 减 
少 ， 说 明 第 一 个 多 选 分 支 的 成 功 匹 配 次 数 增加 了 ， 也 就 是 说 回溯 的 次 数 减 少 了 。 


正则 表达 式 
EE | TANNJ) * "| aN likeness" 


(P| VN.) * ") “aN ny“ ER 


{多 选 结构 回溯 发 生 的 位 置 





6-1: 多 选 分 支 排列 顺序 的 影响 (传统 型 NFA) 
请 从 下 面 几 个 方面 评价 这 个 修改 : 
。 ” 哪 种 引擎 从 中 获 益 ?传统 型 NFA， 或 者 POSIX NFA ， 或 是 两 者 ? 


。 “什么 情况 下 ， 这 种 修改 带 来 的 收益 最 大 ? 在 文本 能 够 匹配 时 ， 无 法 匹配 时 ， 还 是 所 有 
时 候 。 


o 请 思考 这 些 问题 ， 翻 到 下 一 页 查看 答案 。 在 阅读 下 一 节 以 前 ， 务 必 理 解答 案 (及 原因 )。 
效率 vs 准确 性 
Efficiency Versus Correctness 


为 提高 效率 修改 正则 表达 式 时 最 需要 考虑 的 问题 是 ， 改 动 是 否 会 影响 匹配 的 准确 性 。 像 上 
面 那样 重新 安排 多 选 分 支 的 顺序 ， 只 有 在 排序 与 匹配 成 功 无 关 时 才 不 会 影响 准确 性 。 前 一 
章 出 现 的 "(\\.1[^"])*" (7197) 的 例子 是 有 缺陷 的 。 如 果 正 则 表达 式 只 需要 (should) 
应 用 于 格式 正确 的 字符 串 ， 此 问题 永远 也 不 会 暴露 出 来 。 如 果 认 为 这 个 表达 式 很 不 错 ， 改 
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稍 加 改动 的 效果 


4 223 页 问题 的 答案 


哪 种 引擎 从 中 获 益 ? 这 种 改动 对 POSIX NFA 没有 影响 ,因为 它 最 终 必 须 党 试 正则 表达 
式 的 每 一 种 可 能 ， 多 选 分 支 的 顺序 其 实 不 重要 。 不 过 ， 对 传统 型 NFA 来 说 ， 这 样 提高 
速度 的 多 选 分 支 重 排序 是 有 利 的 ， 因 为 引 党 一 旦 找到 匹配 结果 就 会 停 下 来 。 


什么 样 的 情况 下 会 有 效果 ? 只 有 匹配 成 功 时 才 会 加 快速 度 。 只 有 在 尝试 所 有 的 可 能 (再 
说 一 次 ，POSIX NFA 任何 情况 下 都 会 尝试 所 有 可 能 ) ZÉ, NFA 才 可 能 失败 。 所 以 如 
果 确 实 不 能 匹配 ， 每 种 可 能 都 会 被 尝试 ， 所 以 排列 顺序 没有 影响 。 


下 表 列 出 了 Rohl ah dich hat vaste cea 


"makudonarudo" 
"Very…99 more chars 
"long" 


"No \"match\" herell24 Js6 liz4 8 li24 8 
我 们 发 现 ， 两 个 表达 式 在 POSIX NFA 中 的 情况 是 一 样 的 ， 而 修改 之 后 ， 传 统 型 NFA 
的 表现 提升 了 (减少 了 回溯 ) 。 而 在 不 能 匹配 的 情况 下 (最 后 一 行 ) ， 因 为 两 种 引擎 必 
须 尝 试 所 有 的 可 能 ， 结 果 就 是 一 样 的 。 





动 的确 提 高 了 效率 ， 我 们 就 会 遇 到 真正 的 问题 。 交 换 多 选 分 支 ， 把 '["], 放 在 前 面 ， 避 免 
表达 式 进 行 不 正确 的 匹配 ， 如 果 目 标 字符 串 包含 一 个 转 义 的 双 引 号 : 


"You need a 2\"3\" photo.” 





所 以 ， 在 关注 效率 的 时 候 ， 万 不 可 忘记 准确 性 。 
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继续 前 进 一 一 限制 匹配 优先 的 作用 范围 


Advancing Further—Localizing the Greediness 


从 图 6-1 可 以 看 出 ,在 任意 正则 表达 式 中 , 星 号 会 对 每 个 普通 字符 进行 迭代 (或 者 说 “重复 ”)， 
重复 进入 -退出 多 选 结构 (和 括号 )。 这 需要 成 本 ,也 就 是 额外 的 处 理 一 一 如 果 可 能 ,我 们 必 
须 避 免 这 些 额外 处 理 。 


有 一 次 , 在 处 理 这 类 正则 表达 式 时 ,我 想到 一 个 优化 的 办 法 ， 考 虑 到 "IT^\\"], 匹 配 “ 普 通 ” 

( 非 引号 ， 非 反 斜 线 ) KI, EA AV + 会 在 (…)* 的 一 次 迭代 中 读 入 尽 可 能 多 的 字 
符 。 对 没有 转 义 字 符 的 字符 串 来 说 ， 这 样 会 一 次 读 人 整个 字符 串 。 于 是 就 几乎 不 会 进行 回 
滴 ， 也 就 把 星 号 迭代 的 次 数 减少 到 最 小 。 我 很 为 自己 的 发 现 而 高 兴 


我 们 会 在 本 章 更 深入 地 考察 这 个 例子 , 不 过 看 一 眼 统计 数据 会 清楚 地 发 现 好 处 。 图 6-2 展示 
了 传统 型 NFA 上 应 用 这 个 例子 的 情况 。 比 较 原来 的 (\\.1[^\\"])*"， (上面 的 两 个 表达 
式 )， 与 多 选 结构 相关 的 回 湖 和 星 号 迭代 都 减少 了 。 下 面 的 两 个 例子 说 明 ， 结 合 之 前 的 重 排 
序 技巧 ， 这 种 修改 会 带 来 更 多 的 收益 。 


正则 表达 式 


IEE  TECLASY DRAT : aad 


™ (S| CANNED * " 


C E | NIN) * 9 
-NNN | NINE) * =, 


/多 选 结构 回溯 发 生 的 位 置 





图 6-2: 添加 加 号 的 结果 (传统 型 NFA) 


新 增 的 加 号 大 大 减少 了 多 选 结构 回溯 的 次 数 ， 以 及 星 号 的 迭代 次 数 。 星 号 量词 作用 于 括号 
内 的 子 表达 式 , 每 次 迭代 都 需要 进入 然后 再 退出 括号 , 这 都 需要 成 本 ,因为 引擎 需要 记录 
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aa err E E E in 


括号 内 的 子 表达 式 匹 配 的 文本 (本 章 会 深入 探讨 此 问题 )。 


表 6-1 与 第 224 页 答案 中 的 表格 类 似 , 不 过 表达 式 不 同 ,另外 还 给 出 了 星 号 的 迭代 次 数 。 在 
每 种 情况 下 ， 独 立 测试 次 数 和 回溯 次 数 的 增加 都 很 有 限 ， 但 是 迭代 次 数 有 了 显著 降低 ， 这 
是 很 大 的 进步 。 


表 6-1: 传统 型 NFA 的 匹配 效率 


字符 串 

测试 “| 回溯 | eet | 测试 “| 回溯 | ee 
"2\"x3\" Likeness? a fa fas [z 6 
"Very . . .99 more chars. . .1ong， Ea 112 2 


实测 


Reality Check 


是 的 ， 我 对 自己 的 发 现 颇 为 得 意 。 但 这 个 看 起 来 很 奇妙 的 “改动 ”不 过 是 场 还 未 爆发 的 灾 
难 。 你 可 能 注意 到 了 ， 在 考察 它 的 各 项 指标 时 ， 我 没有 给 出 POSIX NFA 的 统计 数据 。 如 果 
这 样 做 ， 你 可 能 会 很 惊奇 地 发 现 "very* …… '1ong" 的 匹配 需要 超过 3 亿 亿 亿 次 (实际 上 是 
324 518 553 658 426 726 783 156 020 576 256) 回溯 .说 简单 点 就 是 ， 回 溯 是 个 天 文 数字 。 
这 需要 超过 50 百 亿 亿 (quintillion) 年 ， 或 者 是 若干 千 万 亿 个 千年 ( 注 1)。 


确实 很 出 平 意料 ! 那么 ， 为 什么 会 发 生 这 种 情况 呢 ? 简单 地 说 ， 原 因 在 于 一 一 这 个 正则 表 
达 式 中 某 个 元 素 受 加 号 限定 的 同时 ， 还 受 括号 外 的 星 号 限定 ， 无 法 区 分 哪个 量词 控制 哪个 
特殊 的 字符 。 这 种 不 确定 性 就 是 症结 。 下 一 节 给 出 了 详细 解释 。 


指数 级 ”匹配 
没有 添加 星 号 时 ，[^\\"] 是 星 号 的 约束 对 象 ， 真 正 的 '([^\\"] )w 能够 匹配 的 字符 是 有 限 
的 。 它 先 匹 配 一 个 字符 ， 然 后 匹配 下 一 个 字符 ， 如 此 继续 ， 最 多 就 是 匹配 目标 文本 中 的 每 


个 字符 。 它 也 可 能 无 法 匹配 目标 字符 串 中 的 所 有 字符 ， 不 过 ， 充 其 量 ， 匹 配 字符 的 个 数 与 
目标 字符 串 的 长 度 成 线性 关系 。 目 标 字符 串 越 长 ， 可 能 的 工作 量 相对 也 越 大 。 


注 1: 这 个 数字 是 根据 其 他 测试 估算 出 来 的 ， 我 可 没有 那么 长 的 时 间 来 测试 。 
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BÈ, 对 正则 表达 式 的 '( [~^\\"]+)* 来 说 ,加 号 和 星 号 二 者 分 割 (divvy up) 字符 串 的 可 能 

性 是 成 指数 形式 增长 的 。 如 果 目 标 字符 串 是 makuaonarudo， 是 星 号 会 迁 代 12 次 ， 每 一 次 

迭代 中 【it 匹 配 一 个 字符 〈 就 像 这 样 “qakyqenaryS9 ) ? 还 是 星 号 迭代 3 次 ， 内 部 

的 [^\\ "+ 分 别 匹配 5. 3, 4 个 字符 (‘makudonarudo’) ? 或 者 2、2、5、3 个 字符 
(‘makudonarudo’) ? 还 是 其 他 …… 





你 现在 知道 ， 存 在 许多 种 可 能 (对 长 度 为 12 的 字符 串 存 在 4096 种 可 能 )。 字 符 串 中 的 每 个 
字符 ， 都 存在 两 种 可 能 ，POSIX NFA 在 给 出 结果 之 前 必须 尝试 所 有 可 能 。 这 就 是 “指数 级 
匹配 ”的 来 历 。 我 还 听 说 过 一 个 不 错 的 名 字 :“ 超 线性 (super-linear)”。 


无 论 叫 什么 名 字 ， 终 归 都 是 回 滴 ， 大 量 的 回溯 (TE 2)! 12 个 字符 需要 4 096 种 可 能 ， 这 可 
能 不 需要 多 久 时 间 ， 不 过 20 个 字符 需要 超过 一 百 万 种 可 能 ， 时 间 长 达 若干 秒 。30 个 字符 ， 
就 需要 超过 十 亿 种 可 能 ， 长 达 若 干 小 时 ， 如 果 是 40 个 字符 ， 就 需要 一 年 多 的 时 间 。 这 显然 
不 是 什么 好 事情 。 


你 可 能 会 想 ,“ 没 关系 ，POSIX NFA 并 不 常见 。 我 知道 我 的 工具 用 的 是 传统 型 NFA， 所 以 
这 问题 对 我 不 存在 。” 的 确 ，POSIX NFA 和 传统 型 NFA 的 主要 差别 在 于 ， 传 统 型 NFA 在 遇 
到 第 一 个 完整 匹配 可 能 时 会 停止 。 如 果 没 有 完整 匹配 ， 即 使 是 传统 型 NFA 也 需要 尝试 所 有 
的 可 能 ， 在 找到 之 前 。 即 使 是 前 面 提 到 的 "No*\"match\"*here 这 样 短 短 的 字符 串 ， 在 报告 
失败 之 前 ， 也 需要 尝试 8 192 种 可 能 。 


在 正则 引擎 忙于 尝试 这 些 数量 庞大 的 可 能 时 ， 整 个 程序 看 起 来 好 像 “ 锁 死 (lock up)” 了 。 
我 第 一 次 遇 到 这 种 情况 时 ， 以 为 自己 发 现 了 程序 的 bug， 不 过 现在 我 理解 了 , 现在 我 把 这 个 
正则 表达 式 加 入 自己 的 正则 表达 式 工 具 包 里 ， 用 来 测试 引擎 的 类 型 。 


。 如果 其 中 的 某 个 表达 式 ， 即 使 不 能 匹配 ， 也 能 很 快 给 出 结果 ， 那 可 能 就 是 DFA。 
° 如果 只 有 在 能 够 匹配 时 才 很 快 出 结果 ， 那 就 是 传统 型 NFA, 
° ”如 果 总 是 很 慢 ， 那 就 是 POSIX NFA, 


第 一 个 判断 中 我 使 用 了 “可 能 ”这 个 单词 ， 因 为 经 过 高 级 优化 的 NFA 没准 能 检测 并 且 避 免 
这 些 指数 级 的 无 休止 (neverending) 匹配 ( 详 见 本 章 后 文字 2$0) 。 同 样 ， 我 们 会 见 到 各 种 方 
法 来 改进 或 重 写 这 些 表达 式 ， 加 快 它们 匹配 或 报错 的 速度 。 


注 2: 给 感 兴趣 的 读者 两 个 数字 ， 长 度 为 的 字 桂 事 ， 回 溯 的 次 数 是 2"!， 独 立 测 试 的 次 数 为 


gh l +2" ` 


iti 
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前 面 列 出 的 几 点 表明 ， 如 果 排 除 某 些 高 级 优化 的 影响 ， 就 能 根据 正则 表达 式 的 相对 性 能 判 
断 引 擎 的 类 型 。 这 就 是 第 4 章 中 (7146) 我 们 能 用 某 些 正则 表达 式 来 “测试 引擎 的 类 型 ” 
的 原因 。 


当然 ， 不 是 每 点 改动 都 会 带 来 像 本 例 一 样 的 灾难 性 后 果 ， 不 过 除非 知道 正则 表达 式 的 幕后 
原理 ， 否 则 在 实际 运行 之 前 永远 不 能 判断 后 果 。 为 此 ， 本 章 考 察 了 各 种 例子 的 效率 和 后 果 。 
不 过 ， 对 许多 事 来 说 ， 牢 固 理解 基本 概念 对 深入 学 习 是 非常 重要 的 ， 所 以 ， 在 讲解 指数 级 
匹配 之 前 ， 我 们 不 妨 仔细 复习 复习 回潮 。 


全 面 考察 回 湖 


A Global View of Backtracking 


从 局 部 来 看 ， 回 滴 就 是 倒退 至 未 尝试 的 分 支 。 这 很 容易 理解 ， 但 是 回溯 对 整个 匹配 影响 并 
不 容易 理解 。 在 本 节 ， 我 们 会 详细 考察 回溯 在 匹配 成 功 和 不 成 功 时 的 各 种 细节 ， 尝 试 从 中 
发 据 出 一 些 东 西 。 

先 来 仔细 看 看 前 一 章 的 几 个 例子 ， 在 165 页 ， 我 们 把 ".*", 应 用 到 下 面 的 文本 : 


The name "McDonald's" is said "makudonarudo" in Japanese 
匹配 过 程 如 图 6-3 所 示 。 


正则 表达 式 会 从 字符 串 的 起 始 位 置 开 始 依次 尝试 每 个 字符 , 但 是 因为 开头 的 引号 无 法 匹配 ， 
此 后 的 字符 也 不 能 匹配 ， 直 到 尝试 进行 到 标记 位 置 A。 接 着 尝试 表达 式 的 其 他 部 分 ， 但 是 
传动 装置 (7148) 知道 如 果 这 种 尝试 不 成 功 ， 整 个 表达 式 可 以 从 下 一 个 位 置 开始 尝试 。 


然后 .*| 匹配 直到 字符 串 末 尾 , 此 时 点 号 无 法 匹配 , 所 以 星 号 停止 和 迭代。 因为.* 匹配 成 功 
可 以 不 需要 任何 字符 ， 所 以 在 此 过 程 中 引擎 记录 了 46 TREE. 现在 '.*, 停 止 了 ， 引 
擎 从 最 后 保存 的 状态 开始 回 滴 ， 在 “…anise ”处 开始 尝试 .* "。 


也 就 是 说 ， 我 们 在 字符 串 的 末尾 尝试 匹配 表示 结束 的 双 引 号 。 不 过 ， 在 这 里 双 引 号 同样 无 
法 匹配 ， 所 以 尝试 仍然 失败 。 然 后 引擎 继续 回 滴 、 尝 试 ， 结 果 同 样 是 无 法 匹配 。 
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et E 


> ”尝试 并 匹配 失败 
回溯 并 尝试 ， 匹 配 失败 
一 一 > 正则 表达 式 元 素 成 功 匹 配 的 文本 





图 6-3:“.*" 的 成 功 匹 配 过 程 


引擎 倒 过 来 尝试 (最 后 保存 的 状态 排 在 最 先 ) 从 A 到 B 保存 的 状态 ， 首 先是 从 B 到 C。 在 
进行 了 多 次 尝试 之 后 到 达 这 个 状态 : 正则 表达 式 中 的 ".*,", 对 应 字符 串 中 的 …arudo." 
“in"Japa…， 也 就 是 C 所 标注 的 位 置 。 此 时 匹配 成 功 ， 于 是 我 们 在 D 位 置 得 到 全 局 匹配 。 


The name "McDonald's" is said "Makudonarudo" in Japanese 


这 就 是 传统 型 NFA 的 匹配 过 程 ， 剩 下 的 未 使 用 状态 将 被 抛弃 ， 报 告 匹配 成 功 。 





POSIX NFA 需要 更 多 处 理 


More Work for a POSIX NFA 


我 们 已 经 介绍 过 , POSIX NFA 的 匹配 是 “到 目前 为 止 最 长 的 匹配 ”, 但 是 仍然 需要 尝试 所 有 
保存 的 状态 ， 确 认 是 否 存在 更 长 的 匹配 。 我 们 知道 ， 对 本 例 来 说 ， 第 一 次 找到 的 匹配 就 是 
最 长 的 ， 但 正则 引擎 需要 确认 这 一 点 。 


所 以 ， 在 保存 的 所 有 状态 中 ， 除 了 两 个 能 够 匹配 双 引号 的 可 能 之 外 ， 其 他 都 会 在 尝试 后 立 
即 被 放弃 。 所 以 ， 尝 试 过 程 D-E-F 和 F-G-H 类 似 B-C-D， 只 是 F 和 了 H 会 被 放弃 ， 因 为 它 
们 匹配 的 文本 比 D 的 要 短 。 


在 I 位 置 能 进行 的 回溯 是 “启动 驱动 过 程 , 进行 下 一 轮 尝试 (bump-along and retry)”, 不过， 
因为 从 A 位 置 开始 的 尝试 能 够 找到 匹配 (实际 上 是 三 个 )，POSIX NFA 引擎 最 终 停 下 来 ， 
报告 在 D 位 置 的 匹配 。 
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无 法 匹配 时 必须 进行 的 工作 


Work Required During a Non-Match 


PD Hs ED i ACH EACH AT. Baia |". FER DCR IE Pe AS, 但 是 它 在 匹配 过 
程 中 仍然 会 进行 许多 工作 。 我 们 将 会 看 到 ， 工 作 量 增 大 了 许多 。 


图 6-4 说 明了 这 些 。A-I 序 列 类 似 图 6-3。 区 别 在 于 , 在 位 置 D 无 法 匹配 (因为 结尾 的 问号 ) 。 
另 一 点 区 别 在 于 , 图 6-4 中 的 整个 尝试 序列 是 传统 型 NFA 和 POSIX NFA 都 必须 经 历 的 : 如 
果 无 法 匹配 ， 传 统 型 NFA 必须 进行 的 尝试 与 POSIX NFA 一 样 多 。 


> ”尝试 并 匹配 失败 
回溯 并 尝试 ,匹配 失败 
一 一 一 > 正则 表达 式 元 素 成 功 匹 配 的 文本 


ES 


< R 


i; 


A = a CEN x pay : 
X= or 


ANNE 人 Y 





图 6-4; (ne |, 匹配 失败 的 经 过 


因为 从 开始 的 A 到 结束 的 工 的 所 有 尝试 都 不 存在 匹配 ， 传 动 装置 必须 启动 驱动 过 程 开 始 新 
HŽ. MJ, Q、V 开始 的 尝试 看 来 有 可 能 匹配 成 功 , 但 结果 都 与 从 A 开始 的 尝试 一 样 。 
最 终 到 Y, 不 存在 继续 尝试 的 途径 ， 所 以 整个 尝试 宜 告 失败 。 如 图 6-4 所 示 ， 得 到 这 个 结果 
花费 了 许多 工夫 。 
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看 清楚 一 点 


Being More Specific 


我 们 把 点 号 换 成 [^"] 来 做 个 比较 。 前 一 章 已 经 讨论 过 ， 这 样 的 结果 更 容易 理解 ， 因 为 它 
能 匹配 的 字符 更 少 ， 而 且 这 样 一 来 ， 正 则 表达 式 的 效率 也 提高 了 。 如 果 使 用 …[^"]*"!， 
'[^"]* 匹 配 的 内 容 就 不 能 包括 双 引 号 ， 减少 了 匹配 和 回溯 。 


图 6-5 说 明了 尝试 失败 的 过 程 (请 对 比 图 6-4)。 从 图 中 可 以 看 到 ， 回 溯 的 次 数 大 大 减少 了 。 
如 果 这 个 结果 满足 我 们 的 需要 ， 减 少 的 回溯 就 是 有 益 的 伴随 效应 (side effect), 


尝试 并 匹配 失败 
回溯 并 尝试 ， 匹 配 失败 
正则 表达 式 元 素 成 功 匹 配 的 文本 





图 6-5:"" [^"]*" 1 无 法 匹配 


多 选 结构 的 代价 很 高 


Alternation Can Be Expensive 


多 选 结构 或 许 是 回溯 的 主要 原因 。 举 个 简单 的 例子 ,用 makudonarudo 来 比较 lviwixly1z 
和 [uvwxyz]) 的 匹配 。 字符 组 一 般 只 是 进行 简单 测试 ( 注 3), 所 以 'ruvwxyz] 只 需要 进行 
34 次 尝试 就 能 匹配 。 


The name "McDonald's" is said “makpdonarudo" in Japanese 


注 3: 不 同 实现 方式 的 效率 可 能 存在 差异 ， 但 总 的 来 说 字符 组 的 效率 要 比 相应 的 多 选 结构 高 。 
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如 果 使 用 'u1viw|xly1z, 则 需要 在 每 个 位 置 进 行 6 次 回溯, 在 得 到 同样 结果 之 前 总 共有 204 
次 回 滴 。 当 然 ， 并 不 是 每 个 多 选 结构 都 可 以 替换 为 字符 组 ， 即 使 可 以 ， 也 不 见得 会 这 么 简 
单 。 不 过 ， 在 某 些 情 况 下 ， 我 们 将 要 学 习 的 技巧 能 够 大 大 减少 与 匹配 所 须 的 多 选 结构 相关 
的 回潮 。 


理解 回溯 可 能 是 学 习 NFA 效率 中 最 重要 的 问题 ， 但 所 有 的 问题 不 只 于 此 。 正 则 引擎 的 优化 
措施 能 够 大 大 提升 效率 。 在 本 章 后 面 ， 我 们 将 详细 考察 正则 引擎 要 做 的 工作 和 优化 手段 。 


性 能 测试 


Benchmarking 


本 章 主要 讲解 速度 和 效率 ， 而 且 会 时 常 使 用 性 能 测试 ， 所 以 我 希望 介绍 一 些 测 试 的 原则 。 
我 会 用 几 种 语言 来 介绍 简单 的 测试 方法 。 


基本 的 性 能 测试 就 是 记录 程序 运行 的 时 间 : 先 取 系统 时 间 ， 运 行程 序 ， 再 取 系 统 时 间 ， 计 
算 两 者 的 差 , 就 是 程序 运行 的 时 间 。 举 个 例子 , HH (albicidielfig)+$:M'*la-gl+$i, 
先 来 看 Pel 的 表现 ， 然 后 再 来 看 其 他 语言 。 下 面 是 简单 的 Pel 程序 (不 过 ,我们 将 会 看 到 ， 
这 个 例子 有 人 欠缺) : 

use Time::HiRes 'time'; # 这 样 Cime() 的 返回 值 更 加 精确 

$StartTime = time(); 

“abababdedfg" =~ m/*(albic|/dle|f£1lg)+$/; 


S$EndTime = time(); 
printf("Alternation takes %.3f seconds.\n", SEndTime - $StartTime); 


$StartTime = time(); 

“abababdedfg" =~ m/*[a-g]+$/; 

SEndTime = time(); 

printf ("Character class takes %.3f seconds.\n", $EndTime - $StartTime); 


它 看 来 (而 且 也 确实 是 ) 很 简单 ， 但 是 在 进行 性 能 测试 时 ， 我 们 需要 记 住 几 点 : 
。 ”只 记录 “真正 关心 的 (interesting)” 处 理 时 间 。 尽 可 能 准确 地 记录 “处 理 ” 时 间 ， 尽 


可 能 避免 “ 非 处 理 时 间 ” 的 影响 。 如 果 在 开始 前 必须 进行 初始 化 或 其 他 准备 工作 ， 请 
在 它们 完成 之 后 开始 计时 ， 如 果 需 要 收尾 工作 ， 请 在 计时 停止 之 后 进行 这 些 工作 。 


*。 “进行 “足够 多 ”的 处 理 。 通 常 ， 测 试 需要 的 时 间 是 相当 短暂 的 ， 而 计算 机 时 钟 的 单位 
精度 不 够 ， 无 法 给 出 有 意义 的 数值 。 


jif 
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在 我 的 机 器 上 运行 这 个 Perl BF, ARE: 


Alternation takes 0.000 seconds. 

Character class takes 0.000 seconds. 
我 们 只 能 知道 ， 这 上段 程序 所 需 的 时 间 比 计算 机 能 够 测量 的 最 短 时 间 还 要 短 。 所 以 ， 如 
果 程 序 运行 的 时 间 太 短 ， 就 运行 两 次 、 十 次 ， 甚 至 一 千 万 次 ， 来 保证 “足够 多 ”的 工 
作 。 这 里 的 “足够 多 ”取决 于 系统 时 钟 的 精度 ， 大 多 数 系统 能 够 精确 到 1/100s， 这 样 ， 
即使 程序 只 需要 0.5s， 也 能 取得 有 意义 的 结果 。 


。 ”进行 “准确 和 的” 处理。 进行 1 000 万 次 快速 操作 需要 在 负责 计时 的 代码 块 中 升级 1 000 
万 次 计数 器 。 如 果 可 能 ， 最 好 的 办 法 是 增加 真正 的 处 理 部 分 的 比例 ， 而 不 增加 额外 的 
开销 。 在 Perl 的 例子 中 , 正则 表达 式 应 用 的 文本 相当 短 : 如 果 应 用 到 长 得 多 的 字符 串 ， 
在 每 次 循环 中 所 作 的 “真正 的 ”处 理 也 会 多 一 些 。 


考虑 到 这 些 因素 ， 我 们 可 以 得 出 下 面 的 程序 : 


use Time::HiRes ‘time'; # 这 样 cime() 的 返回 值 更 加 精确 
$TimesToDo = 1000; # 设 定 重复 次 数 
$TestString = "abababdedfg" x 1000; # 生成 长 字符 事 


$Count = $TimesToDo; 
$StartTime = time(); 
while ($Count-- > 0) { 
$TestString =~ m/*(albicidlelflg)+$/; 
} 
SEndTime = time(); 
printf("Alternation takes %.3£ seconds.\n", $EndTime - $StartTime); 


$Count = $TimesToDo; 

$StartTime = time(); 

while ($Count-- > 0) { 

$TestString =~ m/*[a-g]+$/; 

} 

$EndTime = time(); 

printf("Character class takes %.3f seconds.\n", $EndTime - $StartTime); 
WER, sTeststring 和 $count 的 初始 化 在 计时 开始 之 前 (STeststring 使 用 了 Perl 提供 
的 x 操作 符 进 行 初始 化 ， 它 表示 将 左边 的 字符 串 重 复 右 边 的 次 数 ) 。 在 我 的 机 器 上 ， 使 用 
Perl5.8 运行 的 结果 是 : 

Alternation takes 7.276 seconds. 

Character class takes 0.333 seconds. 
所 以 ， 对 这 个 例子 来 说 ， 多 选 结构 要 比 字 符 组 快 22 倍 左右 。 此 测试 应 该 执行 多 次 ， 选 取 最 
短 的 时 间 ， 以 减少 后 台 系 统 活动 的 影响 。 
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理解 测量 对 象 


Know khat You ’ re Measuring 


我 们 把 初始 化 程序 更 改 为 下 面 这 样 ， 会 得 到 更 有 意思 的 结果 : 


$TimesToDo = 1000000; 
STestString = "abababdedfg"; 


现在 , MEFFRE ERK BERD 1/1000, 而 测试 需要 进行 1000 次 。 每 个 正则 表达 式 测 
试 和 匹配 的 字符 总 数 并 没有 变化 ， 因 此 从 理论 上 讲 , “工作 量 ”应 该 没有 变化 。 不 过 ， 结 果 
却 大 不 相同 : 

Alternation takes 18.167 seconds. 

Character class takes 5.231 seconds. 


两 个 时 间 都 比 之 前 的 要 长 。 原 因 是 新 增 的 “ 非 处 理 ”开销 一 一 对 scount 的 检测 和 更 新 ， 以 
及 建立 正则 引擎 的 时 间 ， 现 在 的 次 数 是 以 前 的 1 000 倍 。 


对 于 字符 组 测试 来 说 ， 新 增 移 开销 花费 了 大 约 Ss 的 时 间 ， 而 多 选 结构 则 增加 了 将 近 10 秒 。 
为 什么 多 选 结构 测试 的 时 间 变 化 如 此 之 大 ?主要 是 因为 捕获 型 括号 (在 每 次 测试 之 前 和 之 
后 ， 它 们 都 需要 额外 处 理 ， 这 样 的 操作 要 多 1 000 倍 )。 


无 论 如 何 ， 进 行 这 点 修改 的 要 点 在 于 说 明 ， 真 正 处 理 部 分 和 非 真正 处 理 部 分 在 计时 中 所 占 
的 比重 会 强烈 地 影响 到 测试 结果 。 


PHP 测试 


Benchmarking with PHP 
下 面 是 PHP 的 测试 ， 使 用 preg 51%: 


S$TimesToDo = 1000; 


/* 准备 测试 字符 事 */ 

$TestString = ""; 

for ($i = 0; $i < 1000; $i++) 
$TestString .= "abababdedfg"; 


/* 开始 第 一 轮 测 试 */ 

$start = gettimeofday(); 

for ($i = 0; $i < $TimesToDo; $i++) 
preg_match('/*(albiclelflg)+$/', $TestString); 

final = gettimeofday(); 

$sec = ($final['’sec'] + $final['usec']/1000000) - 

($start['sec'] + $start{'usec']/1000000); 
printf("Alternation takes %.3f seconds\n", $sec); 


/* 开始 第 二 轮 测试 */ 

$start = gettimeofday(); 

for (Si = 0; $i < $TimesToDo; $i++) 
preg_match('/*[a-g])+$/', $TestString) ; 

$final = gettimeofday(); 

$sec = ($final[{'sec'] + $finalf['usec']/1000000) - 

($start['sec'] + $start['usec']/1000000) ; 
printf ("Character class takes %.3f seconds\n", $sec); 
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在 我 的 机 器 上 ， 结 果 是 : 


Alternation takes 27.404 seconds 
Character class takes 0.288 seconds 


如 果 在 测试 中 过 到 PHP 错误 “not being safe to rely on the system's timezone settings”, 请 添加 
下 面 的 代码 : 


if (phpversion() >= 5) 
date_default_timezone_set ("GMT"); 


Java 测试 


Benchmarking with java 


因为 某 些 原因 ， 用 Java 测试 很 有 讲究 。 首 先 看 个 考虑 不 够 周到 的 例子 ， 然 后 请 思考 它 为 什 
么 考虑 不 周到 ， 应 该 如 何 改进 : 


import java.util.regex.*; 

public class JavaBenchmark { 

public static void main(String [] args) 

{ 
Matcher regexl 
Matcher regex2 
long timesToDo 


Pattern.compile("*(aibicid{elflg)+$") .matcher(""); 
Pattern.compile("*[a-g]+$").matcher(""); 
1000; 


rou ow 


StringBuffer temp = new StringBuffer (); 

for (int i = 1000; i > 0; i--) 
temp.append("abababdedfg") ; 

String testString = temp.toString(); 


// 第 一 轮 测试 计时 ... 
long count = timesToDo; 
long startTime = System.currentTimeMillis(); 
while (~-count > 0) 
regexl.reset (testString) .find(); 


double seconds = (System.currentTimeMillis() - startTime) /1000.0; 
System.out.println("Alternation takes " + seconds + " seconds"); 
// 第 二 轮 测试 计时 ... 


count = timesToDo; 
startTime = System.currentTimeMillis(); 


while (--count > 0) 
regex2.reset (testString) .find(); 
seconds = (System.currentTimeMillis() - startTime) /1000.0; 


System.out.println("Character class takes " + seconds + " seconds"); 
} 
} 


你 注意 到 在 这 个 程序 中 正则 表达 式 如 何 初始 化 部 分 编译 了 吗 ?我 们 需要 测试 的 是 匹配 的 速 
度 ， 而 不 是 编译 的 速度 。 
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速度 取决 于 所 使 用 的 虚拟 机 (VM), Sun 的 标准 JRE 有 两 种 虚拟 机 ，client VM 为 快速 启动 
而 优化 ，server VM 为 长 时 间 、 大 负荷 的 作业 而 优化 。 


在 我 的 机 器 上 ， 使 用 client VM 运行 测试 的 结果 如 下 ; 


Alternation takes 19.318 seconds 
Character class takes 1.685 seconds 


使 用 server VM 的 结果 如 下 : 


Alternation takes 12.106 seconds 
Character class takes 0.657 seconds 


这 样 看 来 测试 有 点 不 可 信 了 ， 之 所 以 说 它 不 够 周到 ， 原 因 在 于 计时 的 结果 在 很 大 程度 上 取 
决 于 自动 的 预 执行 编译 器 (automatic pre-execution compiler) 的 工作 ， 或 者 说 运行 时 编译 器 
(run-time compiler) 与 测试 代码 的 交互 情况 。 某 些 虚 拟 机 包含 JIT (Just-In-Time compiler), 
IT 会 根据 需要 ， 在 需要 执行 代码 之 前 才 进 行 编译 。 


Java 使 用 了 我 称 为 BLTN (Better-Late-Than-Never) 的 编译 器 ， 在 执行 期 间 计 数 ， 对 反复 使 
用 的 代码 根据 需要 进行 编译 和 优化 。BLTN 的 性 质 是 ， 它 只 对 认为 “热门 ”(hot， 即 大 量 使 
用 ) 的 代码 进行 干预 。 如 果 虚 拟 机 已 经 运行 了 一 段 时 间 ， 例 如 在 服务 器 环境 中 , 它 已 经 “ 预 
热 ” 完 毕 ， 而 我 们 的 简单 例子 确保 了 一 台 “ 凉 ”的 服务 器 (BLTN 没有 进行 任何 优化 )。 


可 以 把 测试 部 分 放 入 一 个 循环 ， 来 观察 “ 预 热 ” 现 象 ， 
// 第 一 轮 测 试 计时 ... 


for (int i = 4; i > 0; i--) 
{ 

long count = timesToDo; 

long startTime = System.currentTimeMillis(); 

while (--count > 0) 

regexl.reset (testString).find(); 

double seconds = (System.currentTimeMillis() - startTime)/1000.0; 

System.out.printin("Alternation takes " + seconds + " seconds"); 
} 


如 果 新 增 的 循环 运行 足够 长 (例如 ，10s)，BLTN 就 会 优化 热门 代码 ， 最 后 一 次 输出 的 时 间 
就 代表 了 已 预 热 系统 的 情况 。 再 次 使 用 server VM， 这 些 时 间 确 实 比 之 前 有 了 8% 和 25 允 的 
提高 。 


Alternation takes 11.151 seconds 
Character class takes 0.483 seconds 


另 一 个 问题 在 于 , 负责 调度 GC 线程 的 工作 是 不 确定 的 。 所 以 , 进行 足够 长 时 间 的 测试 能 够 
降低 这 些 不 确定 因素 的 影响 。 
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VB.NET 测试 


Benchmarking with VB.NET 


下 面 是 VB.NET 的 测试 程序 : 


Option Explicit On 
Option Strict On 


Imports System.Text.RegularExpressions 


Module Benchmark 
Sub Main{() 
Dim Regexl as Regex = New Regex("*(albicidle!£ig)+$") 
Dim Regex2 as Regex = New Regex("*[a-g]+$") 
Dim TimesToDo as Integer 1000 “ 
Dim TestString as String rd 
Dim I as Integer 
For I = 1 to 1000 
TestString = TestString & "abababdedfg" 
Next 


Dim StartTime as Double = Timer () 
For I = 1 to TimesToDo 
Regex1.Match(TestString) 
Next 
Dim Seconds as Double = Math.Round(Timer() - StartTime, 3) 
Console.WriteLine("Alternation takes " & Seconds & " seconds") 


StartTime = Timer () 
For I = 1 to TimesToDo 
Regex2 .Match(TestString) 


Next 

Seconds = Math.Round(Timer() - StartTime, 3) 

: Console.WriteLine ("Character class takes " & Seconds & " seconds") 
End Sub 
End Module 


在 我 的 机 器 上 ， 结 果 是 : 


Alternation takes 13.311 seconds 
Character class takes 1.680 seconds 


在 .NET Framework 中 使 用 RegexOptions.Compiled 作为 正则 表达 式 构 造 国 数 的 第 2 个 参 
数 ， 能 够 把 正则 表达 式 编译 为 效率 更 高 的 形式 (7410), HARA: 


Alternation takes 5.499 seconds 
Character class takes 1.157 seconds 


使 用 Compiled 功能 之 后 , 两 个 测试 的 速度 都 有 提高 , 但 是 多 选 结构 的 相对 上 升幅 度 更 为 明 
显 (几乎 是 之 前 的 3 倍 ， 而 字符 组 的 程序 只 提高 到 之 前 的 1.5 倍 )， 所 以 多 选 结构 从 中 获 益 
更 大 。 
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Ruby 测试 


Benchmarking with Ruby 


下 面 是 Ruby 的 测试 代码 ， 


TimesToDo=1000 
testString="" 
for i in 1..1000 
testString += "abababdedfg”" 
end 
Regexl = Regexp: :new("*(albicidle|lflg)+$"); 
Regex2 = Regexp: :new("*[a-g]+$"); 
startTime = Time.new.to_f 
for i in 1..TimesToDo 
Regexl.match(testString) 
end 
print "Alternation takes %.3f seconds\n" % (Time.new.to_f - startTime); 
startTime = Time.new.to_f 
for i in 1..TimesToDo 
Regex2 .match(testString) 
end 
print “Character class takes %.3f seconds\n" % (Time.new.to_f - startTime); 


在 我 的 机 器 上 ， 结 果 如 下 : 


Alternation takes 16.311 seconds 
Character class takes 3.479 seconds 


Python 测试 


Benchmarking with Python 


下 面 是 Python 的 测试 代码 : 


import re 
import time 
import fpformat , 
Regexl = re.compile{"^(alblcldlelflg)+$") 
Regex2 = re.compile("*{a-g]+$") 
TimesToDo = 1250; 
TestString = "" 
for i in range(800): 
TestString += "abababdedfg” 
StartTime = time.time() 
for i in range(TimesToDo) : 
Regexl .search (Test String) 
Seconds = time.time() - StartTime 
print "Alternation takes " + fpformat.fix(Seconds,3) + " seconds" 
StartTime = time.time() 
for i in range(TimesToDo): 
Regex2.search(TestString) 
Seconds = time.time() - StartTime 
print “Character class takes " + fpformat.fix(Seconds,3) + " seconds” 
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因为 Python 的 正则 引擎 设 定 的 限制 ， 我 们 必须 减少 字符 串 的 长 度 ， 因 为 原来 长 度 的 字符 审 
会 导致 内 部 错误 (“maximum recursion limit exceeded”)。 这 种 规定 有 点 像 减 压 阀 ， 它 有 助 于 
终止 无 休止 匹配 。 

` 


作为 弥补 ， 我 相应 增加 了 而 试 的 次 数 。 在 我 的 机 器 上 ， 而 试 结果 为 : 


Alternation takes 10.357 seconds 
Character class takes 0.769 seconds 


Tel 测试 


Benchmarking with Tel 


下 面 是 Tel 的 测试 代码 : 


set TimesToDo 1000 

set TestString "" 

for {set i 1000} ($i > 0} {incr i -1} { 
append TestString "“abababdedfg" 

} 


set Count $TimesToDo 
set StartTime [clock clicks -milliseconds] 
for {} {$Count > 0} {incr Count -1} { 
regexp {*(albic(dle{f\aq)+$} $TestString 
} 
set EndTime [clock clicks -milliseconds} 
set Seconds [expr (S$EndTime - $StartTime)/1000.0) 
puts [format “Alternation takes %.3f seconds" $Seconds] 


set Count $TimesToDo 
set StartTime [clock clicks -milliseconds] 
for {} {$Count > 0} {incr Count -1} { 
regexp {^[a-g]+$} $TestString 
} 
set EndTime [clock clicks -milliseconds} 
set Seconds [expr (S$EndTime - $StartTime)/1000.0) 
puts {format "Character class takes %.3f seconds" $Seconds] 


在 我 的 机 器 上 ， 结 果 如 下 : 


Alternation takes 0.362 seconds 
Character class takes 0.352 seconds 


神奇 的 是 ， 两 者 速度 相当 。 还 记得 吗 ， 我 们 在 第 145 页 说 过 ，Tcl 使 用 的 是 NFA/DFA 混合 
引擎 ， 对 DFA 引擎 来 说 ， 这 两 个 表达 式 是 没有 区 别 的 。 本 章 所 举 的 大 部 分 例子 并 不 适用 于 
Teclj， 详 细 信 息 请 参考 第 243 页 。 


iff 
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常见 优化 措施 


Common Optimizations 


聪明 的 正则 表达 式 实现 (implementation) 有 许多 办 法 来 优化 ， 提 高 取得 结果 的 速度 。 优 化 
通常 有 两 种 办 法 : 


° ”加速 某 些 操 作 。 某 些 类 型 的 匹配 ， 例 如 “sa+,， 极 为 常见 ， 引 擎 可 能 对 此 有 特殊 的 处 理 
方案 ， 执 行 速度 比 通用 的 处 理 机 制 要 快 。 


© ”避免 元 余 操 作 。 如 果 引 擎 认为 ， 对 于 产生 正确 结果 来 说 ， 某 些 特殊 的 操作 是 不 必要 的 ， 
或 者 某 些 操作 能 够 应 用 到 比 之 前 更 少 的 文本 ， 忽 略 这 些 操作 能 够 节省 时 间 。 例 如 ， 一 
个 以 ai ( 行 开 头 ) 开头 的 正则 表达 式 只 有 在 字符 串 的 开头 位 置 才能 匹配 ， 如 果 在 此 
处 无 法 匹配 ， 传 动 装置 不 会 徒劳 地 尝试 其 他 位 置 (进行 无 谓 的 尝试 )。 


在 下 面 的 十 几 页 中 ， 我 会 讲解 自己 见 过 的 许多 种 不 同 的 天 才 优 化 措施 。 没 有 任何 一 种 语言 
或 者 工具 提供 了 所 有 这 些 措施 ， 或 者 只 是 与 其 他 语言 和 工具 相同 的 优化 措施 ， 我 也 确信 ， 
还 有 许多 我 没 见 过 的 优化 措施 ， 但 看 完 本 章 的 读者 ， 应 该 能 够 合理 利用 自己 所 用 工具 提供 
的 任何 优化 措施 。 


有 得 必 有 失 


No Free Lunch 


通常 来 说 优化 能 节省 时 间 ， 但 并 非 永远 如 此 。 只 有 在 检测 优化 措施 是 否 可 行 所 需 的 时 间 少 
于 节省 下 来 的 匹配 时 间 的 情况 下 ， 优 化 才 是 有 益 的 。 事 实 上 ， 如 果 引 擎 检查 之 后 认为 不 可 
能 进行 优化 ， 结 果 总 是 会 更 慢 ， 因 为 最 开始 的 检查 需要 花费 时 间 。 所 以 ， 在 优化 所 需 的 时 
间 ， 节 省 的 时 间 ， 以 及 更 重要 的 因素 一 一 优化 的 可 能 性 之 间 ， 存 在 互相 制约 的 关系 。 


来 看 一 个 例子 。 表 达 式 \b\B, ( 某 个 位 置 既是 单词 分 隔 符 又 不 是 单词 分 隔 符 ) 是 不 可 能 匹配 
的 。 如 果 引 擎 发 现 提供 的 表达 式 包 含 \b\B 就 知道 整个 表达 式 都 无 法 匹配 ， 因 而 不 会 进行 
任何 匹配 操作 。 它 会 立刻 报告 匹配 失败 。 如 果 匹 配 的 文本 很 长 ， 节 省 的 时 间 就 非常 可 观 。 


不 过 ， 我 所 知 的 正则 引擎 都 没有 进行 这 样 的 优化 。 为 什么 ?首先 ， 很 难 判断 这 条 规则 是 否 
适用 于 某 个 特定 的 表达 式 。 某 个 包含 \b\BI 的 正则 表达 式 很 可 能 可 以 匹配 ， 所 以 引擎 必须 
做 一 些 额外 的 工作 来 预先 确认 。 当 然 ， 节 省 的 时 间 确 实 很 可 观 ， 所 以 如 果 预 计 到 e 经 
常 出 现 ， 这 样 做 还 是 值得 的 。 


if 
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ANE, AIDA (MERE) ( 注 4)， 虽 然 在 极 少数 情况 下 这 样 做 可 以 节省 大 量 的 时 
间 ， 但 其 他 情况 下 速度 降低 的 代价 比 这 高 得 多 。 


优化 各 有 不 同 


Everyone ` s Lunch is Different 


在 讲解 各 种 优化 措施 时 ， 请 务必 记 住 一 点 “优化 各 有 不 同 (everyone’s lunch is different)”, 
虽然 我 尽量 使 用 简单 清晰 的 名 字 来 命名 每 种 措施 ， 但 不 同 的 引擎 必然 可 能 以 不 同 的 方式 来 
优化 。 对 某 个 正则 表达 式 进行 细微 的 改动 ， 在 某 个 实现 方式 中 可 能 会 带 来 速度 的 大 幅 提 升 ， 
而 在 另 一 个 实现 方式 中 大 大 降低 速度 。 


正则 表达 式 的 应 用 原理 


The Mechanics of Regex Application 

我 们 必须 先 掌 担 正 则 表达 式 应 用 的 上 本 知识 ， 然 后 讲解 先进 系统 的 优化 原理 及 利用 方式 。 
之 前 已 经 了 解 了 回溯 的 细节 ， 在 本 节 我 们 要 进行 更 全 面 地 学 习 。 

正则 表达 式 应 用 到 目标 字符 串 的 过 程 大 致 分 为 下 面 几 步 : 

. 正则 表达 式 编译 检查 正则 表达 式 的 语法 正确 性 ， 如 果 正 确 ， 就 将 其 编译 为 内 部 形式 


(internal form) 。 
. 传动 开始 传动 装置 将 正则 引擎 “定位 ”到 目标 字符 串 的 起 始 位 置 。 


-元素 检测 引擎 开始 测试 正则 表达 式 和 文本 ， 依 次 测试 正则 表达 式 的 各 个 元 素 (comp- 
onent) ， 如 第 4 章 所 说 的 那样 。 我 们 已 经 详细 考察 了 NFA 的 回溯 ， 但 是 还 有 几 点 需要 补 
充 : 


。 FETCH, Bilan subject H's. "w, bi Gi ‘es BS, 会 依次 尝试 , 只 有 当 某 个 
元 素 匹 配 失败 时 才 会 停止 。 


。 ”量词 修饰 的 元 素 , 控制 权 在 量词 (检查 量词 是 否 应 该 继续 匹配 ) 和 被 限定 的 元 素 (而 
试 能 否 匹配 ) 之 间 轮 换 。 


。 ”控制 权 在 捕获 型 括号 内 外 进行 切换 会 带 来 一 些 开销 。 括号 内 的 表达 式 匹 配 的 文本 必 
须 保留 , 这 样 才能 通过 $1 来 引用 。 因 为 一 对 括号 可 能 属于 某 个 回溯 分 支 , 括号 的 状 
态 就 是 用 于 回溯 的 状态 的 一 部 分 ， 所 以 进入 和 退出 捕获 型 括号 时 需要 修改 状态 。 


一 一 


N 


t 


注 4: FRE, 我 曾 在 测试 中 使 用 '\b\Bi 来 保证 正则 表达 式 的 某 个 部 分 匹配 失败 。 例 如， 我 可 能 
把 \b\B1 插 入 “…(this Ithis other)…J 标 记 的 状态 中 ， 保 证 第 一 个 多 选 分 支 的 失败 。 
现在 ， 当 我 使 用 “必须 失败 ”的 元 素 时 , AEA (L, 你 可 以 在 第 333 页 找到 这 个 与 Perl 
相关 的 例子 。 
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~ 


. 寻找 匹配 结果 如 果 找 到 一 个 匹配 结果 ， 传 统 型 NFA 会 “锁定 ”在 当前 状态 ， 报 告 匹 配 
成 功 。 而 对 POSIX NFA 来 说 ， 如 果 这 个 匹配 是 迄今 为 止 最 长 的 ， 它 会 记 住 这 个 可 能 的 匹 
配 ， 然 后 从 可 用 的 保存 状态 继续 下 去 。 保 存 的 状态 都 测试 完毕 之 后 返回 最 长 的 匹配 。 


. 传动 装置 的 驱动 过 程 如 果 没 有 找到 匹配 ， 传动 装置 就 会 驱动 引擎 ,从 文本 中 的 下 一 个 字 
符 开始 新 “ 轮 的 尝试 〈 回 到 步骤 3) 。 


. 匹配 彻底 失败 如 果 从 目标 字符 串 的 每 一 个 宁 符 (包括 最 后 一 个 字符 之 后 的 位 置 ) 开始 的 
尝试 都 失败 了， 就 会 报告 匹配 彻底 失败 。 


下 面 几 节 讲解 高 级 的 实现 方式 如 何 减少 这 些 处 理 ， 以 及 如 何 应 用 这 些 技巧 。 


nr 


iow) 


应 用 之 前 的 优化 措施 


Pre-Application Optimizations 


优秀 的 正则 引擎 实 现 方式 能 够 在 止 则 表达 式 实 际 应 用 之 前 就 进行 优化 ， 它 有 时候 其 至 能 迅 
速 判断 出 ， 某 个 正则 表达 式 无 论 如 何 也 无 法 匹配 ， 所 以 根本 不 必 应 用 这 个 表达 式 。 


编译 缓存 


第 2 章 的 E-mail 处 理 程序 中 ， 用 于 处 理 header 各 行 的 主 循环 体 中 是 这 样 的 : 


while (=) { 
if ($line =~ m/4\e*§/ ) … 
if ($line =~ m/*Subject: (.*)/)-: 
if ($line =~ m/4Date: (.*)/). 
if ($line =~ m/*Reply-To: (\8+)/):: 
if ($line =~ m/4From: (\S+) \(({*()]*)\)/).:: 


} 


正则 表达 式 使 用 之 前 要 做 的 第 一 件 事情 是 进行 错误 检查 ， 如 果 没 有 问题 则 编译 为 内 部 形式 ，。 
编译 之 后 的 内 部 形式 能 用 来 检查 各 种 字符 串 ， 但 是 这 段 程序 的 情况 如 何 ? 显然 ， 每 次 循环 
都 要 重新 编译 所 有 正则 表达 式 ， 这 很 浪费 时 间 。 相 反 ， 在 第 一 次 编译 之 后 就 把 内 部 形式 保 
存 或 缓存 下 来 ， 在 此 后 的 循环 中 重复 使 用 它们 ， 显 然 会 提高 速度 (只 是 要 消耗 些 内 存 )。 


具体 做 法 取决 于 应 用 程序 提供 的 正则 表达 式 处 理 方式 。93 页 已 经 说 过 ， 有 3 种 处 理 方式 ; 
集成 式 、 程 序 式 和 面向 对 象 式 。 
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集成 式 处理 中 的 编译 缓存 


Perl 和 awk 使 用 的 就 是 集成 式 处 理 方法 ， 非 常 容易 进行 编译 缓存 。 从 内 部 来 说 ， 每 个 正则 
表达 式 都 关联 到 代码 的 某 一 部 分 ， 第 一 次 执行 时 在 编译 结果 与 代码 之 间 建 立 关联 ， 下 次 执 
行 时 只 需要 引用 即 可 。 这 样 最 节省 时 间 ， 代 价 就 是 需要 一 部 分 内 存 来 保存 缓存 的 表达 式 。 


DFA, Tel 与 手工 调 校正 则 表达 式 


本 章 中 介绍 的 大 部 分 优化 措施 并 不 适用 于 DFA。 第 242 R43) MMA APE A TH 
有 的 引擎 ， 但 是 本 章 讨 论 的 所 有 手工 调 校 都 不 适用 于 DFA。 第 4 章 已 经 澄清 ， 远 辑 上 
相等 的 正则 表达 式 "thislthatj 和 Thtislat), 对 DFA 来 说 是 等 价 的 .之 所 以 要 写本 
章 ， 是 因为 它们 对 NFA 来 说 不 相等 。 


那么 使 用 DFA/NFA 混合 引擎 的 Tel 呢 ? Tel 的 正则 引擎 是 由 正则 表达 式 的 传奇 人 物 


Henry Spencer (788) 为 Tel 专门 开发 的 ， 它 成 功 地 融合 了 DFA 和 NFA 的 优点 。 在 
2000 年 4 月 的 Usenet posting 中 ，Henry 这 样 写 到 : 
总 的 来 说 ， 与 传统 的 正则 引 学 相 比 ，Tcl 的 引擎 对 正则 表达 式 的 具体 形式 的 敏感 
度 要 低 得 多 。 无 论 正则 表达 式 写 成 怎么 样 ， 该 快 的 就 快 ， 该 慢 的 就 慢 。 传 统 的 正 
则 表达 式 手工 优化 在 这 里 不 适用 。 


Henry 的 Tcl 正则 引 掌 是 一 大 进步 。 如 果 其 中 的 技术 流行 开 来 ， 本 章 的 许多 内 容 就 毫 无 
意义 了 。 





变量 插值 功能 (variable interpolation， 即 将 变量 的 值 作 为 正则 表达 式 的 一 部 分 ) 可 能 会 给 缓 
存 造 成 麻烦 。 例 如 对 m/^Subject:'\Q $Desiredsubject\E\s*$/ 来 说 ， 每 次 循环 中 正则 
表达 式 的 内 容 可 能 会 发 生 改 变 ， 因为 它 取决 于 插值 变量 ， 而 这 个 变量 的 值 可 能 会 变化 。 如 
果 每 次 都 会 不 同 ， 那 么 正则 表达 式 每 次 都 需要 编译 ， 完 全 不 能 重复 利用 。 


尽管 正则 表达 式 可 能 每 次 循环 都 会 变化 ， 但 这 并 不 是 说 任何 时 候 都 需要 重新 编译 。 折 中 的 
优化 措施 就 是 检查 插值 后 的 结果 (也 就 是 正则 表达 式 的 具体 值 )， 只 有 当 具 体 值 发 生变 化 时 
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才 重 新 编译 。 不 过 ， 如 果 变 化 的 几率 很 小 ， 大 多 数 时 候 就 只 需要 检查 (而 不 需要 编译 )， 优 
化 效果 很 明显 。 


程序 式 处 理 中 的 编译 缓存 


在 集成 式 处 理 中 ， 正 则 表达 式 的 使 用 与 其 在 程序 中 所 处 的 具体 位 置 相关 ， 所 以 再 次 执行 这 
段 代 码 时 ， 编 译 好 的 正则 表达 式 就 能 够 缓存 和 重复 使 用 。 但 是 ， 程 序 式 处 理 中 只 有 通用 的 
“应 用 此 表达 式 ” 的 函数 。 也 就 是 说 ， 编 译 形式 并 不 与 程序 的 具体 位 置 相 连 ， 下 次 调用 此 
函数 时 ， 正 则 表达 式 必 须 重新 编译 。 从 理论 上 来 说 就 是 如 此 ， 但 是 在 实际 应 用 中 ， 禁 止 尝 
试 缓存 的 效率 无 疑 很 低 。 相 反 ， 优 化 通常 是 把 最 近 使 用 的 正则 表达 式 模式 (regex pattern) 
保存 下 来 ， 关 联 到 最 终 的 编译 形式 。 


调用 “应 用 此 表达 式 ” 函 数 之 后 ， 作 为 参数 的 正则 表达 式 模 式 会 与 保存 的 正则 表达 式 相 比 
较 ， 如 果 存 在 于 缓存 中 ， 就 使 用 缓存 的 版 本 。 如 果 没 有 ， 就 直接 编译 这 个 正则 表达 式 ， 将 
其 存 人 缓存 (如 果 缓 存 有 容量 限制 ， 可 能 会 替换 一 个 旧 的 表达 式 )。 如 果 缓 存 用 完了 ， 就 必 
须 放 弃 (thrown out) 一 个 编译 形式 ， 通 常 是 最 久未 使 用 的 那个 。 


GNU Emacs 的 缓存 能 够 保存 最 多 20 个 正则 表达 式 ，Tcl 能 保存 30 个 。PHP 能 保存 四 千 多 
M, -NET Framework 在 默认 情况 下 能 保存 15 个 表达 式 , 不 过 数量 可 以 动态 设置 , 也 可 以 禁 
止 此 功能 (7432), 


缓存 的 大 小 很 重要 ， 因 为 如 果 缓 存 装 不 下 循环 中 用 到 的 所 有 正则 表达 式 ， 在 循环 重新 开始 
时 ， 最 开始 的 正则 表达 式 会 被 清除 出 缓存 ， 结 果 每 个 正则 表达 式 都 需要 重新 编译 。 


面向 对 象 式 处 理 中 的 编译 缓存 


在 面向 对 象 式 处 理 中 ， 正 则 表达 式 何 时 编译 完全 由 程序 员 决 定 。 正 则 表达 式 的 编译 是 用 户 
通过 New Regex, re.compile fi] Pattern. compile (分别 对 应 .NET. Python 和 java.util. 
regex) 之 类 的 构造 函数 来 进行 的 。 第 3 章 的 简单 示例 对 此 做 了 介绍 (从 第 95 页 开始 )， 编 
译 在 正则 表达 式 实际 应 用 之 前 完成 ， 但 是 它们 也 可 以 更 早 完成 (有 了 时候 可 以 在 循环 之 前 ， 
或 者 是 程序 的 初始 化 阶段 )， 然 后 可 以 随意 使 用 。 在 第 235, 237 和 238 页 的 性 能 测试 中 体 
现 了 这 一 点 。 


在 面向 对 象 式 处 理 中 , 程序 员 通 过 对 象 析 构 函数 抛弃 (thrown away) 编译 好 的 正则 表达 式 。 
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及 时 抛弃 不 需要 的 编译 形式 能 够 节省 内 存 。 


预 查 必须 字符 / 子 字符 串 优 化 


相 比 正 则 表达 式 的 完整 应 用 ， 在 字符 串 中 搜索 某 个 字符 《或 者 是 一 串 字符 ) 是 更 加 “ 轻 量 
级 ”的 操作 ， 所 以 某 些 系统 会 在 编译 阶段 做 些 额外 的 分 析 ， 判 断 是 否 存在 成 功 匹配 必须 的 
字符 或 者 字符 串 。 在 实际 应 用 正则 表达 式 之 前 ， 在 目标 字符 串 中 快速 扫描， 检查 所 需 的 字 
符 或 者 字符 串 一 一 如 果 不 存 在 ， 根 本 就 不 需要 进行 任何 尝试 。 


举例 来 说 , “subject :…(.*) ,的 “subject:*” 是 必须 出 现 的 。 程 序 可 以 检查 整个 字符 牛 ， 
或 者 使 用 Boyer-Moore 搜索 算法 (这 是 一 种 很 快 的 文件 检索 算法 ,字符 囊 越 长 ,效率 越 高 )。 
没有 采用 Boyer-Moore 算法 的 程序 进行 逐个 字符 检查 也 可 以 提高 效率 。 选 择 目标 字符 串 中 
不 太 可 能 出 现 的 字符 (例如 “subject :… 中 的 “t” 之 后 的 “:") 能 够 进 -- 步 提高 效率 。 


正则 引擎 必须 能 识别 出 ,^subject :…(.*) ,的 一 部 分 是 固定 的 文本 字符 串 , 对 任意 匹配 来 说 ， 
识别 出 thisithatlother, 中 “th” 是 必须 的 ,需要 更 多 的 工夫 ， 而 且 大 多 数 正则 引 营 不 
会 这 样 做 。 此 问题 的 答案 并 不 是 黑白 分 明 的 ， 某 个 实现 方式 或 许 不 能 识别 出 “th” 是 必须 
的 ， 但 能 够 识别 出 “h” 和 “t” 都 是 必须 的 ， 所 以 至 少 可 以 检查 一 个 字符 。 


不 同 的 应 用 程序 能 够 识别 出 的 必须 字符 和 字符 串 有 很 大 差别 。 许 多 系统 会 受到 多 选 结构 的 
干扰 。 在 这 种 系统 中 ， 使 用 chtisiat) 的 表现 好 于 “hislchatj。 同 样 ， 请 参考 第 247 页 
的 “开头 字符 /字符 组 / 子 串 识 别 优化 "。 


长 度 判断 优化 


“subject:*{.*), 能 匹配 文本 的 长 度 是 不 固定 的 ， 但 是 至 少 必 须 包 含 9 个 字符 。 所 以 ， 如 
果 目 标 字 符 串 的 长 度 小 于 9 则 根本 不 必 尝 试 。 当 然 ， 需 要 匹配 的 字符 更 长 优化 的 效果 才 更 
明显 ， 例 如 ':\a{79}:, (至 少 需要 81 个 字符 )。 


请 参见 第 247 页 的 “长 度 识 别传 动 优 化 ”。 


Hi 


www.TopSage.com 


246 第 6 章 : 打造 高 效 正 则 表达 式 


通过 传动 装置 进行 优化 


Optimizations with the Transmission 


即使 正则 引擎 无 法 预知 某 个 字符 串 能 否 匹 配 ， 也 能 够 减少 传动 装置 真正 应 用 正则 表达 式 的 
位 置 。 


字符 串 起 始 / 行 锚 点 优化 


这 种 优化 措施 能 够 判断 , 任何 以 “开头 的 正则 表达 式 只 能 在 …, 能 够 匹配 的 情况 下 才 可 能 匹 
配 ， 所 以 只 需要 在 这 些 位 置 应 用 即 可 。 


在 “ 预 查 必 须 字 符 / 子 字符 串 优 化 ”中 提 到 ， 正 则 引擎 必须 判断 对 某 个 正则 表达 式 来 说 有 哪 
些 可 行 的 优化 ， 在 这 里 同样 有 效 。 任 何 使 用 此 优化 的 实现 方式 都 必须 能 够 识别 ， 如 果 
“^(thislthat)) 匹 配 成 功 , "必须 能 够 匹配 , 但 许多 实现 方式 不 能 识别 “chis1^*tchati。 此 
BT, 用 “(chislchat)) 或 者 “(?:this1that)) 能 够 提高 匹配 的 速度 。 


同样 的 优化 措施 还 对 a 有效 ， 如 果 匹 配 多 次 进行 ， 对 "G1 也 有 效 。 


隐 式 锚 点 优化 


能 使 用 此 种 优化 的 引擎 知道 , 如 果 正 则 表达 式 以 “.*, 或 .+ 开头 , 而且 没 有 全 局 性 多 选 结构 
(global alternation), 则 可 以 认为 此 正则 表达 式 的 开头 有 一 个 看 不 见 的 "“,。 这 样 就 能 使 用 上 
一 节 的 “字符 串 起 始 / 行 错 点 优化 "， 节 省 大 量 的 时 间 。 


更 聪明 的 系统 能 够 认识 到 , 即使 开头 的 .*; 或 .+ 在 括号 内 , 也 可 以 进行 同样 的 优化 , 但 是 
在 过 到 捕获 括号 时 必须 小 心 。 例 如 ,“( .+)x\1; 期 望 匹配 的 是 字符 串 在 ‘“X” 两 侧 是 相同 的 ， 
添加 “; 就 不 能 匹配 “1234x2345”( 注 5)。 


字符 串 结束 / 行 锚 点 优化 


这 种 优化 遇 到 末尾 为 '$ 或 者 其 他 结束 锚 点 (7129) 的 正则 表达 式 时 , 能 够 从 字符 串 未 尾 倒 
数 老 干 字符 的 位 置 开 始 尝试 匹配 。 例如 正则 表达 式 resex(es) ?$) 匹 配 只 可 能 从 字符 串 未 尾 
倒数 的 第 8 个 字符 (TE 6) 开始 ， 所 以 传动 装置 能 够 跳 到 那个 位 置 ， 略 过 目标 字符 串 中 许多 
可 能 的 字符 。 


注 5: 有 趣 的 是 ，Perl 的 这 个 “优化 过 度 ” 的 bug， 在 10 年 里 都 无 人 关注 ， 最 后 由 Perl 开发 人 员 
Jeff Pinyan 在 2002 年 早期 发 现 (并 修正 ) 。 显 然 ，(.+)XN1I 之 类 的 表达 式 并 不 常见 、 否 则 
这 个 bug 就 不 会 这 么 迟 才 被 发 现 了 。 

注 6: 在 这 里 ,我 说 8 个 字符 ， 而 不 是 7 个 ,因为 在 许多 流派 中 ,5 能 够 匹配 字 桂 事 末 尾 的 换行 
竺 之 前 的 位 置 (7129), 


if 
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开头 字符 /字符 组 / 子 串 识别 优化 


这 是 “ 预 查 必须 字符 / 子 字 符 串 优化 ”的 更 一 般 的 版 本 ， 这 种 优化 使 用 同样 的 信息 (正则 表 
达 式 的 任何 匹配 必须 以 特定 字符 或 文字 子 字符 串 开 头 )， 容 许 传动 装置 进行 快速 子 字符 串 检 
E, 所 以 它 能 够 在 字符 串 中 合适 的 位 置 应 用 正则 表达 式 。 例 如 ，chislthat lother 只 能 从 
‘(ot 的 位 置 开 始 匹 配 ， 所 以 传动 装置 预先 检查 字符 串 中 的 每 个 字符 ， 只 在 可 能 匹配 的 位 
置 进行 应 用 ， 这 样 能 节省 大 量 的 时 间 。 能 够 预先 检查 的 子 串 越 长 ,“ 错 误 的 开始 位 置 ”就 越 
少 。 


内 嵌 文 字 字 符 串 检查 优化 


这 有 点 类 似 初 始 字 符 串 识别 优化 ， 不 过 更 加 高 级 ， 它 针对 的 是 在 匹配 中 固定 位 置 出 现 的 文 

FFT, MRIEWRIAKE '\b (perl | java) \.regex\.info\b, 那么 任何 匹配 中 都 要 有 
“ .regex.info" ， 所 以 智能 的 传动 装置 能 够 使 用 高 速 的 Boyer-Moore 字符 捉 检 索 算法 寻找 
.regex.info ， 然 后 往 前 数 4 个 字符 ， 开 始 实际 应 用 正则 表达 式 。 


一 般 来 说 ， 这 种 优化 只 有 在 内 嵌 文 字 字符 串 与 表达 式 起 始 位 置 的 距离 固定 时 才能 进行 。 
此 它 不 能 用 于 \b(vbljava)\.regex\.info\bl， 这 个 表达 式 虽然 包含 文字 字符 串 , 但 此 字 
符 串 与 匹配 文本 起 始 位 置 的 距离 是 不 确定 的 (2 个 或 4 个 字符 )。 这 种 优化 同样 也 不 能 用 于 
‘\b(\w+) \.regex\.info\b), 因为 '(\w+), 可 能 匹配 任意 数目 的 字符 。 


长 度 识 别传 动 优化 


此 优化 与 245 页 的 长 度 识别 优化 直接 相关 ， 如 果 当 前 位 置 距离 字符 捉 末 尾 的 长 度 小 于 成 功 
匹配 所 需 最 小 长 度 ， 传 动 装置 会 停止 匹配 尝试 。 


优化 正则 表达 式 本 身 


Optimizations of the Regex Itself 


文字 字符 串 连 接 优 化 


也 许 最 基本 的 优化 就 是 ， 引 擎 可 以 把 'abc; 当 作 “一 个 元 素 " ， 而 不 是 三 个 元 素 “al， 然 后 
EÈ b, 然后 是 <”。 如 果 能 够 这 样 ， 整 个 部 分 就 可 以 作为 匹配 迁 代 的 一 个 单元 ， 而 不 需要 进 
行 三 次 迭代 。 

化 简 量 词 优化 

约束 普通 元 素 一 一 例如 文字 字符 或 者 字符 组 一 一 的 加 号 、 星 号 之 类 的 量词 ， 通 常 要 经 过 优 
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化 ,避免 普通 NFA 引擎 的 大 部 分 逐步 处 理 开销 (step-by-step overhead)。 正 则 引擎 内 的 主 循 
环 必须 通用 (general) ， 能 够 处 理 引 擎 支持 的 所 有 结构 。 而 在 程序 设计 中 ,“ 通 用 ”意味 着 
“速度 慢 "， 所 以 此 种 优化 把 .* 之 类 的 简单 量词 作为 一 个 “整体 ”， 正 则 引擎 便 不 必 按 照 
通用 的 办 法 处 理 , 而 使 用 高 速 的 , 专门 化 的 处 理 程序 。 这样, 通用 引擎 就 绕 过 (short-circuit) 
了 这 些 结构 。 


举例 来 说 ，.*, 和 '(?:.)* 在 逻辑 上 是 相等 的 ， 但 是 在 进行 此 优化 的 系统 中 ，.*, 实 际 上 更 
快 。 举 一 些 例 子 : 在 java.util.regex 中 , 性 能 提升 在 10% 左 右 , 但 是 在 Ruby 和 .NET F, 
KRÈ 2.5 倍 。 在 Python 中 ， 大 概 是 50 倍 。 在 PHP/PCRE H, KÈ 150 倍 。 因 为 Perl 
实现 了 下 一 节 介 绍 的 优化 措施 , '.*, (2: .) “的 速度 是 一 样 的 (请 参考 下 一 页 的 补充 内 容 ， 
了 解 如 何 解释 这 些 数据 ) 。 


消除 无 必要 括号 


- 如 果菜 种 实现 方式 认为 O: .)*1 与 .*! 是 完全 等 价 的 ， 那 么 它 就 会 用 后 者 替换 前 者 。 


消除 不 需要 的 字符 组 


只 包含 单个 字符 的 字符 组 有 点 儿 多 余 ， 因 为 它 要 按照 字符 组 来 处 理 ， 而 这 么 做 完全 没有 必 
要 。 所 以 ， 聪 明 的 实现 方式 会 在 内 部 把 L. 转换 为 仆 .,。 


忽略 优先 量词 之 后 的 字符 优化 


忽略 优先 量词 , Galen's (.*?)" 中 的“*?”, 在 处 理 时 ,引擎 通常 必须 在 量词 作用 的 对 象 (点 
F) 和 “之 后 的 字符 之 间 切 换 。 因 为 种 种 原因 ， 忽 略 优先 量词 通常 比 匹配 优先 量词 要 慢 ， 
尤其 是 对 上 文中 “化 简 量 词 优 化 ”的 匹配 优先 限定 结构 来 说 ， 更 是 如 此 。 另 一 个 原因 是 ， 
如 果 忽 略 优先 量词 在 捕获 型 括号 之 内 ， 控 制 权 就 必须 在 括号 内 外 切换 ， 这 样 会 带 来 额外 的 
开销 。 


所 以 这 种 优化 的 原理 是 ， 如 果 文 字 字 符 跟 在 忽略 优先 量词 之 后 ， 只 要 引擎 没有 触及 那个 文 
字 字符 ， 忽 略 优先 量词 可 以 作为 普通 的 匹配 优先 量词 来 处 理 。 所 以 ， 包 含 此 优化 的 实现 方 
式 在 这 种 情况 下 会 切换 到 特殊 的 忽略 优先 量词 ， 迅 速 检 测 目标 文本 中 的 文字 字符 ， 在 遇 到 
此 文字 字符 之 前 ， 跳 过 常规 的 “忽略 ”状态 。 


此 优化 还 有 各 种 其 他 形式 ,例如 预 查 一 组 字符 ,而 不 是 特殊 的 一 个 字符 (例如 ， 检查“['"] 
(.*2) 0°) PRC, 这 有 点 类 似 前 面 介绍 的 开头 字符 识别 优化 )。 
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理解 本 章 中 的 性 能 测试 


本 章 的 大 多 数 性 能 测试 给 出 的 是 某 种 语言 的 相对 结果 。 例 如 ， 第 248 页 我 提 到 一 种 优 
化 过 结构 能 比 另 一 种 未 优化 的 结构 快 10% ,至 少 在 Sun 的 Java regex package 中 是 这 样 。 
在 .NET 中 ， 两 者 之 间 的 差异 是 2.5 倍 ， 在 PCRE 中 ， 是 150 倍 。 在 Perl 中 ， 两 者 是 一 
样 的 (也 就 是 ， 它 们 的 速度 是 相同 的 ) 。 

那么 ， 你 能 够 从 中 推导 出 不 同 语言 之 间 的 相对 速度 吗 ? 显然 不 能 。PCRE 中 150 倍 的 
性 能 提升 意味 着 优化 执行 的 效果 特别 好 ， 相 对 其 他 语言 ， 或 者 意味 着 未 优化 的 版 本 速 
度 很 慢 。 在 大 部 分 中 ， 我 几乎 没有 提 到 语言 之 间 的 计时 间 题 ， 因 为 它们 是 语言 开发 人 
员 争论 的 话题 。 

不 过 还 是 有 一 点 值得 一 看 ,就 是 Java 的 10% 和 PCRE 的 1$0 倍 背后 的 细节 。 看 起 来 PCRE 
中 未 优化 的 '(?: .)*i 的 速度 是 Java 的 1/11, 不 过 优化 的 !.* 要 快 13 倍 。Java 和 Ruby 
的 优化 版 本 速度 相同 ， 但 是 Ruby 的 未 优化 版 本 比 Java 的 要 慢 40%, Ruby 的 未 优化 版 
本 只 比 Python 的 未 优化 版 本 慢 10% ,但 是 Python 的 优化 版 本 比 Ruby 的 优化 版 本 快 20 
倍 。 


所 有 这 些 都 比 Perl 的 要 慢 。Perl 的 优化 和 未 优化 版 本 都 比 Python RRA MAH 10%, 
请 注意 ， 每 种 语言 都 有 自己 的 强项 ， 这 些 数字 只 是 针对 某 个 具体 的 测试 情况 而 言 的 。 


















“过 度 ” 回 漳 检 测 


第 226 页 的 “实测 ”揭示 的 问题 是 ，( .+) *, 之 类 的 量词 结合 结构 ,能 够 制造 指数 级 的 回溯 。 
避免 这 种 情况 的 简单 办 法 就 是 限定 回溯 的 次 数 ， 在 “ 超 限 ”时 停止 匹配 。 在 某 些 实际 情况 
中 这 非常 有 用 ， 但 是 它 也 为 正则 表达 式 能 够 应 用 的 文本 人 为 设置 了 限制 。 


例如 , 如 果 上 限 是 10 000 次 回溯 ,'.*?, 就 不 能 匹配 长 于 10 000 的 字符 , 因为 每 个 匹配 的 字 
符 都 对 应 一 次 回溯 。 这 种 情况 并 不 罕见 ， 尤 其 在 处 理 Web 页 时 更 是 如 此 ， 所 以 这 种 限制 非 
HM. 


Ii 
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出 于 不 同 的 原因 ， 某 些 实现 方式 限制 了 回溯 堆栈 的 大 小 (也 就 是 同时 能 够 保存 的 状态 的 上 
限 )。 例 如 ，Python 的 上 限 是 10000。 就 像 回 计 上 限 一 样 ， 这 也 会 限制 正则 表达 式 所 能 处 理 
的 文本 的 长 度 。 


因为 存在 这 个 问题 ， 本 书 中 的 某 些 性 能 测试 构建 起 来 非常 困难 。 为 了 获得 最 准确 的 结果 ， 
性 能 测试 中 计时 部 分 应 该 尽 可 能 多 地 完成 正则 表达 式 的 匹配 ， 所 以 我 创建 了 极 长 的 字符 串 ， 
比较 例如 i (Jo (Js 和 (jx 的 执行 时 间 。 为 了 保证 结果 有 意义 ， 
我 必须 限制 字符 串 的 长 度 ， 以 避免 回调 计数 或 者 堆栈 大 小 的 限制 。 你 可 以 在 239 页 看 到 这 
MAT. 


避免 指数 级 (也 就 是 超 线性 super-linear) 匹配 


避免 无 休止 的 指数 级 匹配 的 更 好 办 法 是 ， 在 匹配 尝试 进 入 超 线 性 状态 时 进行 检测 。 这 样 就 
能 做 些 额 外 的 工作 ， 来 记录 每 个 量词 对 应 的 子 表 达 式 尝试 匹配 的 位 置 ， 绕 过 重复 尝试 。 


实际 上 ， 超 线性 匹配 发 生 时 是 很 容易 检测 出 来 的 。 单 个 量词 “和 迭代”( 循 环 ) 的 次 数 不 应 该 
比 目 标 字符 串 的 字符 数量 更 多 。 否 则 肯定 发 生 了 指数 级 匹配 。 如 果 根 据 这 个 线索 发 现 匹 配 
已 经 无 法 终止 ， 检 测 和 消除 元 余 的 匹配 是 更 复杂 的 问题 ， 但 是 因为 多 选 分 支 匹配 次 数 太 多 ， 
这 么 做 或 许 值得 。 


检测 超 线性 匹配 并 迅速 报告 匹配 失败 的 副作用 (side effect) 之 一 就 是 ， 真 正 缺 乏 效率 的 正 
则 表达 式 并 不 会 体现 出 效率 的 低下 。 即 使 使 用 这 种 优化 ， 避 免 了 指数 级 匹配 ， 所 花 的 时 间 
也 远 远 高 于 真正 需要 的 时 间 ， 但 是 不 会 慢 到 很 容易 被 用 户 发 现 〈 不 像 是 等 到 太阳 落 山 一 样 
漫长 ， 而 可 能 是 多 消耗 1/100s， 对 我 们 来 说 这 很 快 ， 但 对 计算 机 来 说 很 济 长 )。 


当然 、 总 的 来 看 可 能 还 是 利 大 于 兽 。 许 多 人 不 关心 正则 表达 式 的 效率 一 一 它们 对 正则 表达 
式 怀 着 一 种 臣 惧 心理 ， 只 希望 能 完成 任务 ， 而 不 关心 如 何 完成 。( 你 可 能 设 见 过 这 种 情况 ， 
但 是 我 希望 这 本 书 能 够 加 强 你 的 信心 ， 就 像 标 题 说 的 那样 ， 精 通 正则 表达 式 )。 


使 用 占有 优先 量词 削减 状态 


由 正常 量词 约束 的 对 象 匹 配 之 后 ， 会 保留 若干 “在 此 处 不 进行 匹配 ”的 状态 (量词 每 一 轮 
迭代 创建 一 个 状态 ) 。 占 有 优先 量词 (7142) 则 不 会 保留 这 些 状态 。 具 体 做 法 有 两 种 ， 一 
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Pee ER SBS Ase ZETA RARE, BRE AI EE HK RAT HE E 
一 轮 的 备用 状态 (匹配 时 总 需要 保存 一 个 状态 ， 这 样 在 量词 无 法 继续 匹配 的 时 候 引擎 还 能 
继续 运转 ) 。 


在 欠 代 中 即时 抛弃 状态 的 做 法 效率 更 高 ， 因 为 所 占 的 内 存 更 少 。 应 用 .* ,会 在 匹配 每 个 字 
符 时 创造 一 个 状态 ， 如 果 字 符 串 很 长 ， 会 占用 大 量 的 内 存 。 


自动 “占有 优先 转换 ” 


在 第 4 章 中 (7171), AMA Nwa REM ‘subject’, \wu 匹配 到 字符 事 末 尾 时 ， 
最 后 的 冒号 无 法 匹配 ， 所 以 回溯 机 制 会 强迫 w+l 逐 个 交还 字符 ， 在 每 个 位 置 对 ':| 进 
行 杆 劳 的 党 试 。 在 这 个 例子 中 ， 如 果 使 用 固化 分 组 一 (?>\w+) :1 或 者 占有 优先 量词 
“NMw++:l， 能 够 避免 无 谓 的 劳动 。 


聪明 的 实现 方式 应 该 能 自动 做 到 这 一 点 。 编 译 正则 表达 式 时 ， 引 学 会 检查 量词 之 后 的 
元 案 能 匹配 的 字符 是 否 与 量词 作用 元 寨 匹 配 的 字符 重 登 ， 如 果 不 重 登 ， 量词 就 应 该 自 
动 转变 为 占有 优先 的 形式 。 


戴 我 所 知 ， 目 前 还 没有 系统 采用 这 种 优化 ， 在 这 里 列 出 来 ， 是 鼓励 开发 人 员 考 虑 这 个 
问题 ， 困 为 我 坚信 它 能 带 来 实质 性 的 收益 。 





量词 等 价 转 换 


AAJA Aada, 也 有 人 则 习惯 使 用 量词 at4)},。 两 者 的 效率 有 差别 吗 ? tt NFA 来 
说 ， 答 案 几 乎 是 肯定 的 ,但 工具 不 同 ， 结 果 也 不 同 。 如 果 对 量词 做 了 优化 ， 则 八 af4)， 会 更 
快 一 些 ， 除 非 未 使 用 量词 的 正则 表达 式 能 够 进行 更 多 的 优化 。 听 起 来 有 点 迷惑 ? 但 事实 确 
实 如 此 。 


我 的 测试 结果 表明 ，Perl、Python、PHP/PCRE 和 .NET H, '\d(4}; 大 概要 快 20%。 但 是 ， 如 
果 使 用 Ruby 和 Sun 的 Java regex package, "da\a\d\a 则 要 快 上 好 几 倍 。 所 以 , 看 起 来 量词 
在 某 些 工 具 中 要 更 好 一 些 ， 在 另 一 些 工 具 中 则 要 差 一 些 。 不 过 ， 情 况 远 非 如 此 简单 。 


比较 ====; 和 '={4},。 这 个 例子 与 上 面 的 截然 不 同 , 因为 此 时 重复 的 是 确定 的 文字 字符 , 而 
直接 使 用 ====! 引擎 更 容易 将 其 识别 为 一 个 文字 字符 申 。 如 果 是 ， 支 持 的 高 效 的 开头 字符 / 
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字符 组 / 子 串 识别 优化 (7247) 就 可 以 派 上 用 场 。 对 Python 和 Sun 的 Java regex package 来 
说 ， 情 况 正 是 如 此 , ==- Le '=(4)) RE 100 倍 。 


Perl, Ruby 和 .NET 的 优化 手段 更 高 级 ， 它 们 不 会 区 分 ====! 和 '={4}/， 结 果 ， 两 者 是 一 样 
快 的 (而且 都 比 \a\a\a\a) 和 at4); 的 例子 快 成 百 上 千 倍 )。 


需求 识别 


另 一 种 简单 的 优化 措施 是 ， 引 擎 会 预先 取消 它 认 为 对 匹配 结果 没有 价值 的 例如， 在 不 必 
捕获 文本 的 地 方 使 用 了 捕获 型 括号 ) 工作 。 识 别 能 力 在 很 大 程度 上 依赖 于 编程 语言 ， 不 过 
这 种 优化 实现 起 来 也 可 以 很 容易 ， 如 果 在 匹配 时 能 够 指定 某 些 选项 ， 就 能 禁止 某 些 代价 高 
昂 的 特性 。 


Tel 就 能 够 进行 这 种 优化 。 除 非 用 户 明确 要 求 ， 否 则 它 的 捕获 型 括号 并 不 会 真正 捕获 文本 。 
而 .NET 的 正则 表达 式 提 供 了 一 个 选项 ， 容 许 程序 员 指定 捕获 型 括号 是 否 需 要 捕获 。 


fie ie) PIA TE AIRES 


Techniques for Faster Expressions 


之 前 的 数 页 介绍 了 我 见 过 的 传统 型 NFA 引擎 使 用 的 各 种 优化 。 没 有 任何 程序 同时 具备 所 有 
这 些 优化 ， 而 且 无 论 你 爱 用 的 程序 目前 支持 哪些 ， 情 况 也 会 随时 间 而 改变 。 但 是 ， 理 解 可 
能 进行 的 各 种 优化 ， 我 们 就 能 写 出 效率 更 高 的 表达 式 。 如 果 你 还 理解 传统 型 NFA 的 工作 原 
理 ， 把 这 些 知识 结合 起 来 ， 就 可 以 从 三 方面 获 益 : 


。 ”编写 适 于 优化 的 正则 表达 式 编写 适应 已 知 ( 或 者 未 来 会 支持 的 ) 优化 措施 的 表达 式 。 
举例 来 说 ，xx*: 比 x+ 能 适用 的 优化 措施 更 多 ， 例 如 检查 目标 字符 串 中 必须 出 现 的 字 
符 (245)， 或 者 开头 字符 识别 (247)。 


。 ”模拟 优化 有 时 候 我 们 知道 所 用 的 程序 没有 特殊 的 优化 措施 , 但 是 通过 手工 模拟 ,我 们 
还 是 能 节省 大 量 的 时 间 。 比 如 在 "thisithat 之 前 添加 !(?-t),， 这 样 即使 系统 无 法 预 
知 任何 匹配 结果 必须 以 “t ”开头 ， 我 们 还 是 能 模拟 开头 字符 识别 (247)， 下 文 还 会 
深入 讨论 这 个 例子 。 
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主导 引擎 的 匹配 使 用 关于 传统 型 NFA 引擎 工作 原理 的 知识 ， 能 够 主导 引擎 更 快 地 匹 
配 。 拿 thisIthati 来 说 。 每 个 多 选 分 支 都 以 hi 开头 , 如 果 第 一 个 多 选 分 支 不 能 匹配 
thi， 第 二 个 显然 也 不 行 ， 所 以 不 必 白费 工夫 。 因 此 ， 我 们 可 以 使 用 "ch(t?:islat)v。 
ix, th 就 只 要 检查 一 遍 , 只 由 在 确实 需要 的 时 候 才 会 用 到 代价 相对 高 昂 的 多 选 结 构 
功能 。 而 且 ，th(?:islat)! 开 头 的 纯 文 字 字符 就 是 bj， 所 以 存在 进行 其 他 优化 的 可 
能 。 


重要 的 是 认识 到 ， 效 率 和 优化 有 时 候 处 理 起 来 比较 麻烦 。 在 阅读 本 节 其 他 内 容 的 时 候 ， 请 
ANSI PAULA: 


进行 看 来 确实 有 帮助 的 改动 ,有 时 反而 事与愿违 ， 因 为 这 样 可 能 禁止 了 你 所 不 知道 的 ， 
已 经 生效 的 其 他 优化 。 


添加 一 些 内 容 模 拟 你 知道 的 不 存在 的 优化 措施 ， 可 能 出 现 的 情况 是 ， 处 理 那些 添加 内 
容 的 时 间 多 于 节省 下 来 的 时 间 。 


添加 一 些 内 容 模拟 一 个 目前 未 提供 的 优化 ， 如 果 将 来 升级 以 后 的 软件 支持 此 优化 ， 反 
而 会 影响 或 者 重复 真正 的 优化 。 


同样 ， 控 制 表 达 式 尝试 触发 某 种 当前 可 用 的 优化 ， 将 来 某 些 软件 升级 之 后 可 能 无 法 进 
行 某 些 更 高 级 的 优化 。 


为 提高 效率 修改 表达 式 ， 可 能 导致 表达 式 难以 理解 和 维护 。 


具体 的 修改 带 来 的 好 处 (或 是 坏处 ) 的 程度 ， 基 本 上 取决 于 表达 式 应 用 的 数据 。 对 某 
类 数据 来 说 有 益 的 修改 ， 可 能 对 另 一 类 数据 来 说 是 有 害 的 。 


我 来 举 个 极端 点 的 例子 : 你 在 Perl 脚本 中 找到 "(0001999) sj， 并 决定 把 这 些 捕 获 型 括号 赫 
换 为 非 捕获 型 括号 。 你 觉得 这 样 速度 更 快 ， 因 为 不 再 需要 捕获 文本 的 开销 。 但 是 奇怪 的 是 ， 
这 个 微小 而 且 看 起 来 有 益 的 改动 反而 会 把 表达 式 的 速度 降低 许多 个 数量 级 〈 比 之 前 慢 几 千 
倍 )。 怎 么 会 这 样 呢 ? 原来 在 这 里 有 若干 因素 共同 作用 ， 使 用 非 捕获 型 括号 时 ， 字 符 串 结束 
/ 行 错 点 优化 (一 246) 会 被 关闭 。 我 不 希望 劝阻 读者 在 Per 中 使 用 捕获 型 括号 一 一 绝 大 多 数 
情况 下 ， 使 用 他 们 都 是 有 益 的 ， 但 是 在 某 些 情况 下 ， 会 带 来 灾难 性 的 后 果 。 


ill 
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所 以 ， 检 测 并 性 能 而 试 你 期 望 实际 应 用 的 同类 型 的 数据 ， 有 助 于 判断 改动 是 否 值得 ， 但 是 ， 
你 仍然 必须 自己 权衡 众多 因素 。 就 说 这 么 多 ， 下 面 我 开始 讲解 一 些 技巧 ， 你 能 够 用 它们 来 
控 握 引擎 效率 的 最 后 一 点 潜能 。 


常识 性 优化 


Common Sense Techniques 
只 需要 依靠 常识 ， 就 能 进行 一 些 极 有 成 效 的 优化 。 


避免 重新 编译 


编译 和 定义 正则 表达 式 的 次 数 应 该 尽 可 能 的 少 。 在 面向 对 象 式 处 理 中 (一 95) ， 用 户 能 够 精 
确 控制 这 一 点 。 举 例 来 说 ， 如 果 你 希望 在 循环 中 应 用 正则 表达 式 ， 就 应 该 在 循环 外 创建 这 
个 正则 表达 式 对 象 ， 在 循环 中 重复 使 用 。 


在 函数 式 处 理 一 一 例如 GNU Emacs 和 Tel 一 的 情况 下 ， 应 尽量 保证 循环 中 使 用 的 正则 表 
达 式 的 数目 少 于 工具 所 能 缓存 的 上 限 (7244), 


如 果 使 用 的 是 集成 式 处 理 ， 例 如 Perl, ， 应 尽量 避免 在 循环 内 的 正则 表达 式 中 使 用 变量 插值 ， 
因为 这 样 每 次 循环 都 需要 重新 生成 正则 表达 式 , 即使 值 没有 变化 (不过, Perl 提供 了 高 效 的 
办 法 来 避免 这 个 问题 “348)。 

使 用 非 捕 获 型 括号 


如 果 不 需 要 引用 括号 内 的 文本 ， 请 使 用 非 捕获 型 括号 (?:…)， (45)。 这 样 不 但 能 够 节省 
捕获 的 时 间 ， 而 且 会 减少 回 讽 使 用 的 状态 的 数量 ， 从 两 方面 提高 速度 。 而 且 能 够 进行 进 一 
步 的 优化 ， 例 如 消除 无 必要 括号 (7248), 


不 要 滥用 括号 


在 需要 的 时 候 使 用 括号 ， 在 其 他 时 候 使 用 括号 会 阻止 某 些 优化 措施 。 除 非 你 需要 知道 .%， 
匹配 的 最 后 一 个 字符 ,否则 请 不 要 使 用 '(.)*;。 这 似乎 很 显而易见 , 但 是 别 忘 了 ， 本 节 的 标 
题 是 “常识 性 优化 ”。 

不 要 滥用 字符 组 


这 一 点 看 起 来 也 很 显而易见 , 但 是 我 经 常 在 缺乏 经 验 的 程序 员 的 表达 式 中 看 到 '“.*(:]1。 我 
不 知道 为 什么 他 们 会 使 用 只 包含 单个 字符 的 字符 组 一 一 这 样 需要 付出 处 理 字符 组 的 代价 ， 
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但 并 不 需要 用 到 字符 组 提供 的 多 字符 匹配 功能 。 我 认为 ， 当 一 个 字符 是 元 字符 时 一 一 -例如 
1 .1 或 者 'T*],， 可 能 作者 不 知道 通过 转 义 把 它们 转换 为 仆 .和 仆 *。 我 经 常 在 宽松 排列 模 
A (7111) 下 见 到 它们 与 空白 字符 一 起 出 现 。 

同样 ， 读 过 本 书 第 一 版 的 Perl 用 户 可 能 有 时 候 写 出 “[Ff] [Rr] [00] [Mm] :,， 而 不 是 用 不 区 
分 大 小 写 的 “from:i。 老 版 本 的 Perl 在 进行 不 区 分 大 小 写 的 匹配 时 效率 很 低 ， 所 以 我 推荐 
使 用 字符 组 。 但 现在 这 种 做 法 已 不 再 适用 ， 因 为 不 区 分 大 小 写 匹 配 效率 低下 的 问题 在 好 几 
年 前 就 修正 了 。 


使 用 起 始 锚 点 


除非 是 极其 罕见 的 情况 ， 否 则 以 .所 开头 的 正则 表达 式 都 应 该 在 最 前 面 添加 ,或 者 \a， 

( 字 129)。 如 果 这 个 正则 表达 式 在 某 个 字符 串 的 开头 不 能 匹配 ， 那 么 显然 在 其 他 位 置 它 也 
不 能 匹配 。 添 加 销 点 (无 论 是 手工 添加 ， 还 是 通过 优化 自动 添加 了 246) 都 能 够 配合 开头 字 
符 / 字 符 串 / 字 串 识 别 优化 ， 节 省 大 量 不 必要 的 工作 。 


将 文字 文本 独立 出 来 


Expose Literal Text 


我 们 在 本 章 见 过 的 许多 局 部 优化 ， 主 要 是 依靠 正则 引擎 的 能 力 来 识别 出 匹配 成 功 必 须 的 一 
些 文字 文本 。 某 些 引擎 在 这 一 点 上 做 得 比 其 他 引擎 要 好 ， 所 以 这 里 提供 了 一 些 手动 优化 措 
施 ， 有 助 于 “暴露 ”文字 文本 ， 提 高 引擎 识别 的 可 能 性 ， 配 合 与 文字 文本 有 关 的 优化 措施 。 


从 量词 中 “提取 ”必须 的 元 素 

用 xxr BEAR "x+ 能 够 暴露 匹配 必须 的 “x " 。 同 样 的 道理 ，-{5,7) 可 以 写作 ------ (0,2}16 
“提取 ”多 选 结构 开头 的 必须 元 素 

用 'th(?:islat), 赫 代 '(?:thislthat),， 就 能 暴露 出 必须 的 'th;。 如 果 不 同 多 选 分 支 的 结 


尾部 分 相同 ,我 们 也 可 以 从 右面 “提取 ”, 例如 '(?:optimlstandard)ization;。 我 们 会 在 
下 一 节 中 看 到 ， 如 果 提 取出 来 的 部 分 包括 锚 点 ， 这 么 做 就 非常 有 价值 。 


iii 
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将 锚 点 独立 出 来 


Fypose Anchors 


某 些 效果 明显 的 内 部 优化 措施 是 利用 锚 点 〈 例 如“,、s$ 和 疏 G) ， 把 表达 式 “ 绑 定 ”在 目标 
字符 串 的 某 一 端 。 使 用 这 些 优 化 时 ， 某 些 引 擎 的 效果 不 如 其 他 引擎 ， 但 是 有 一 些 技巧 能 够 
提供 帮助 。 


在 表达 式 前 面 独立 出 和 和 \G 


“(?:abc1123)1 和 “abcl^1231 在 逻辑 上 是 等 价 的 ， 但 是 许多 正则 引擎 只 会 对 第 “个 表达 
式 使 用 开头 字符 /字符 串 / 字 串 识别 优化 (246)。 所 以 , 第 一 种 办 法 的 效率 要 高 得 多 。PCRE 
(还 包括 使 用 它 的 工具 ) 中 两 者 的 效率 是 一 样 的 ， 但 是 大 多 数 其 他 NFA 工具 中 第 一 个 表达 
式 的 效率 更 高 。 


比较 (^abc) 和 “(abc) ,我 们 能 发 现 另 一 个 区 别 。 前 者 的 设置 并 不 很 合适 ， 锁 点 “ 藏 ”在 
捕获 型 括号 内 ， 在 检测 销 点 之 前 ， 必 须 首先 进入 括号 ， 在 许多 系统 上 ， 这 样 做 的 效率 很 低 。 
某 些 系 统 (PCRE, Perl, .NET) 中 两 者 的 效率 相当 ， 但 是 在 其 他 系统 中 (Ruby 和 Sun 的 
Java regex package) 只 会 对 后 者 进行 优化 。 


Python 似乎 不 会 进行 锚 点 优化 ， 所 以 这 些 技巧 目前 不 适用 于 Python。 当 然 ， 本 章 介绍 的 大 
多 数 优化 都 不 适用 于 Tel (7243), 


在 表达 式 末尾 独立 出 $ 


此 措施 与 上 一 节 的 优化 思想 非常 类 似 ， 虽 然 abcs1123S$, 和 '"(?:abc1123)5S) 在 逻辑 上 是 等 
价 的 ， 但 优化 的 表现 可 能 不 同 。 目 前 ， 这 种 优化 还 只 适用 于 Perl， 因 为 现在 只 有 Perl 提供 
了 “字符 串 结束 /行销 点 优化 ”〈 灾 246)。 优 化 只 对 leo S RA, 对 Cesis) PEE 
用 。 


忽略 优先 还 是 匹配 优先 ? 具体 情况 具体 分 析 


Lazy Versus Greedy: Be Specific 


通常 ,使 用 忽略 优先 量词 还 是 匹配 优先 量词 取决 于 正则 表达 式 的 具体 需求 。 举 例 来 说 ,“.*:， 
完全 不 同 于 “.*?:!， 因 为 前 者 匹配 到 最 后 的 冒号 ， 而 后 者 匹配 到 第 一 个 冒号 。 但 是 ， 如 果 
目标 数据 中 只 包含 一 个 分 号 ， 两 个 表达 式 就 没有 区 别 了 (匹配 到 唯一 的 分 号 为 止 )， 所 以 选 
择 速度 更 快 的 表达 式 可 能 更 合适 。 


不 过 并 不 是 任何 时 候 优 步 都 如 此 分 明 ， 大 的 原则 是 ， 如 果 目 标 字 符 串 很 长 ， 而 你 认为 分 号 
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会 比较 接近 字符 串 的 开头 ， 就 使 用 忽略 优先 量词 ， 这 样 引擎 能 更 快 地 找到 分 号 。 如 果 你 认 
为 分 号 在 接近 字符 串 末 尾 的 位 置 ， 就 使 用 匹配 优先 量词 。 如 果 数 据 是 随机 的 ， 又 不 知道 分 
号 究竟 会 靠近 哪 一 头 ， 就 使 用 匹配 优先 的 量词 ， 因 为 它们 的 优化 一 般 来 说 都 要 比 其 他 量词 
要 好 ， 尤 其 是 表达 式 的 后 面部 分 禁止 进行 “忽略 优先 量词 之 后 的 字符 优化 ”( 了 248) 时 ， 
更 是 如 此 。 


如 果 待 匹 配 的 字符 串 很 短 ， 差 别 就 不 那么 明显 了 。 这 时 候 ， 两 个 正则 表达 式 的 速度 都 很 快 ， 
不 过 如 果 你 很 在 乎 那 一 点 点 速度 差别 ， 就 对 典型 数据 做 个 性 能 测试 吧 。 


一 个 与 此 有 关 的 问题 是 ， 在 忽略 优先 量词 和 排除 型 字符 组 之 间 ("oe Bees), A 
该 如 何 选择 ? 答案 还 是 取决 于 所 使 用 的 编程 语言 和 应 用 的 数据 ， 但 是 对 大 多 数 引 擎 来 说 ， 
排除 型 字符 组 的 效率 比 忽略 优先 量词 高 的 多 。Perl 是 个 例外 , 因为 它 能 对 忽略 优先 量词 之 后 
的 字符 进行 优化 。 


拆 分 正则 表达 式 


Split Into Multiple Regular Expressions 


有 了 时候， 应 用 多 个 小 正则 表达 式 的 速度 比 一 个 大 正则 表达 式 要 快 得 多 。 举 个 极端 的 例子 ， 
如 果 你 希望 检查 一 个 长 字符 串 中 是 否 包含 月 份 的 名 字 ， 依 次 检查 January), February, 
'Marchj 之 类 的 速度 , 要 比 'January |February |March1…; 快 得 多 。 因 为 对 后 者 来 说 , HE 
在 匹配 成 功 必须 的 文字 内 容 ， 所 以 不 能 进行 “内 婴 文 字 字 符 串 检查 优化 ”( 了 247)。“ 大 而 
全 ”的 正则 表达 式 必 须 在 目标 文本 中 的 每 个 位 置 测 试 所 有 的 自 表达 式 ， 速 度 相 当 慢 。 


撰写 本 章 时 ， 我 遇 到 了 一 个 有 趣 的 情况 。 用 Perl 写 一 个 数据 处 理 模块 时 ， 我 意识 到 客户 端 
程序 有 个 bug， 导 致 它 发 送 奇 怪 的 数据 ， 类 似 “HASH (0x80f60ac) ”而 不 是 真正 的 数据 。 所 
以 ， 我 打算 修正 这 个 模块 ， 寻 找 怪异 数据 的 来 源 ， 并 报告 错误 。 我 使 用 的 正则 表达 式 相当 


BA: '\b(?:SCALARIARRAY |...IHASH) \ (0x(0-9a-fA-F)+\)J. 


在 这 里 ， 效 率 是 非常 关键 的 。 这 个 表达 式 的 速度 如 何 ? Perl 的 调试 模式 (debugging mode) 
能 够 告诉 你 它 对 特定 表达 式 使 用 的 某 些 优 化 (361)， 所 以 我 进行 了 检查 。 我 希望 启用 了 
预 查 必须 字符 /字符 串 优化 (245)， 因 为 足够 先进 的 引擎 应 该 能 够 明白 “(0x” 是 任何 匹配 
所 必须 的 。 因 为 这 个 正则 表达 式 所 应 用 的 数据 几乎 不 包含 “(0x" ， 我 相信 预 查 能 够 节省 许 
多 时 间 。 不 幸 的 是 , Perl 没有 这 样 做 ,所 以 程序 必须 在 每 个 目标 字符 串 的 每 个 字符 那里 测试 
整个 正则 表达 式 的 众多 多 选 分 支 。 速 度 达 不 到 我 的 要 求 。 
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因为 正在 研究 和 撰写 与 优化 有 关 的 内 容 ， 所 以 我 足 思 苦 想 ， 这 个 表达 式 应 该 怎样 写 才 能 得 
到 优化 。 一 个 办 法 是 以 复杂 的 方式 '\(0x(?<=(?:SCALAR|:… |HASH)\ (0x)[0-9a-fA-F] 
+\) Jj。 这样 ,一旦 (0x 匹配 之 后 ,肯定 型 顺序 环视 (下 画 线 标注 部 分 ) 就 能 确保 之 前 匹配 
的 是 需要 的 文本 ， 再 检查 之 后 的 文本 是 否 符合 期 望 。 费 这 番 周 折 的 原因 在 于 ， 让 正则 表达 
式 获 得 必须 出 现 的 文字 文本 ox, 这 样 就 能 进行 多 种 优化 。 尤 其 是 , 我 希望 进行 预 查 必须 
字符 串 优 化 ， 以 及 开头 字符 /字符 组 / 子 串 识别 优化 (247)。 我 确定 这 样 速度 会 很 快 ， 但 是 
Perl 不 支持 长 度 不 定 的 逆序 环视 {133)， 所 以 我 得 想 办 法 来 绕 开 它 。 

不 过 我 发 觉 ， 如 果 Perl 不 会 自动 预 查 “ (0x,， 我 可 以 自己 动手 : 

if ($data =~ m/\ (Ox/ 


and 
$data =~ m/(?:SCALAR|ARRAY|...!HASH) \ (0x[0-9a-fA-F]+\)/) 





( 
# ”错误 数据 ， 报 警 
) 
、 (0x! 的 检查 事实 上 会 过 滤 大 部 分 文本 ， 相 对 较 慢 的 完整 正则 表达 式 只 对 有 可 能 匹配 的 行 
进行 检测 ， 这 样 就 在 效率 (非常 高 ) 和 可 读 性 (非常 高 ) 之 间 达 到 了 完美 的 平衡 ( 注 7)。 


模拟 开头 字符 识别 


Mimic Initial-Character Discrimination 


如 果 你 的 实现 方式 没有 进行 开头 字符 识别 优化 (247)， 则 可 以 亲自 动手 ， 在 表达 式 的 开 
头 添加 合适 的 环视 结构 (133)。 在 正则 表达 式 的 其 他 部 分 匹配 之 前 ， 环 视 结构 可 以 进行 
“ 预 查 ”， 选 择 合适 的 开始 位 置 。 


如 果 正 则 表达 式 为 Jan|Feb1…|Deci, 对 应 的 就 是 '(?= [JFMASOND] ) (?:JanlFeb|…|Dec),。 
开头 的 【[JFMASOND]1 代 表 了 英文 中 月 份 单词 可 能 的 开始 字母 。 不 过 这 种 技巧 并 不 是 所 有 情 
况 下 都 适用 的 ， 因 为 ， 环 视 结构 的 开销 可 能 大 于 节省 的 了 时间。 在 这 个 例子 中 ， 因 为 多 数 多 
选 分 支 都 可 能 匹配 失败 ， 预 查 对 我 测试 的 大 多 数 系统 (Java, Perl, Python, Ruby, .NET) 

都 是 有 用 的 ， 因 为 它们 都 不 能 自动 从 'Jan1Febl…1Dec! 得 到 开头 的 '[JFMASOND1 s 


注 7: 你 可 以 亲自 去 看 看 。 提 到 的 模块 是 (CPAN 上 的 ) DBIx:: DWIW， 它 容许 非常 方便 地 访问 
MySQL 数据 库 。 由 Jeremy Zawodny 和 我 在 Yahoo! 开 发 。 
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在 默认 情况 下 ，PHP/PCRE 并 不 会 进行 这 种 优化 ， 但 是 如 果 使 用 PCRE 的 pcre_study (也 
就 是 PHP 中 的 模式 修饰 符 S, 7478) 则 可 以 。 而 Tol 显然 能 够 完美 地 做 到 这 一 点 (9243), 


如 果 正 则 引擎 能 自动 进行 IJFMAsoND] ,的 检测， 速度 当然 会 比 用 户 手 工 指定 快 得 多 。 我 们 
有 没有 办 法 让 引擎 自动 进行 检测 呢 ? 在 许多 系统 上 ， 我 们 可 以 用 下 面 这 个 复杂 得 要 命 的 表 
达 式 : 


{ JFMASOND] (?:(?<=J)anl(?3<=F)ebl1…1(?<=D)jec)) 


我 可 不 指望 你 能 看 一 眼 就 明白 这 个 表达 式 ， 但 是 花 点 时 间 和 仔细 琢磨 倒是 很 值得 的 。 表 达 式 
开头 的 字符 组 可 以 被 大 多 数 系统 的 开头 字符 识别 优化 所 利用 ， 这 样 传动 装置 就 能 够 高 效 地 
预 查 [JFMASOND] 1。 如 果 目 标 字符 串 不 包含 匹配 字符 ， 结 果 会 比 原来 的 'Jan1…1Dec 或 是 
手工 添加 环视 功能 的 表达 式 要 快 。 但 是 ， 如 果 目 标 字符 串 中 包含 许多 字符 组 能 够 匹配 的 字 
符 ， 那 么 额外 的 逆序 环视 可 能 反而 会 减 慢 匹配 的 速度 。 最 主要 的 问题 是 ， 这 个 正则 表达 式 
显然 很 难看 懂 。 但 是 ， 这 个 例子 倒是 很 有 意思 ， 也 很 启发 人 。 


不 要 在 Tcl 中 这 么 做 


上 面 的 优化 例子 其 实 降低 了 表达 式 的 可 读 性 。243 页 的 补充 内 容 提 到 ,不 同形 式 的 正则 表达 
式 在 Tel 中 的 表现 是 相同 的 ， 所 以 在 Tcl 中 ， 大 多 数 优化 并 没有 意义 。 不 过 ， 有 个 例子 中 优 
化 确实 有 影响 。 根 据 我 的 测试 , 手动 添加 '(?=[JFMASOND] ) ,会 把 速度 降低 到 原来 的 1/100, 


不 要 在 PHP 中 这 么 做 

之 前 我 们 已 经 提 到 过 ,不 应 该 在 PHP 中 进行 优化 ， 因 为 我 们 能 够 使 用 PHP 的 “study” 功 能 
一 一 模式 修饰 符 S 一 一 来 启用 优化 。 详 见 第 10 章 第 478 页 。 

使 用 固化 分 组 和 占有 优先 量词 

Use Atomic Grouping and Possessive Quantifiers 


在 许多 情况 下 ， 国 化 分 组 (7139) 和 占有 优先 量词 (7142) 能 够 极 大 地 提高 匹配 速度 ， 而 
且 它 们 不 会 改变 匹配 结果 。 举 例 来 说 , 如果“[^:]+:: 中 的 冒号 第 一 次 尝试 时 无 法 匹配 ， 那 
么 任何 回溯 其 实 都 是 没有 意义 的 ， 因 为 根据 定义 ， 加 漳 “ 交 还 ”的 任何 字符 都 不 可 能 是 冒 
号 ,使 用 固化 分 组 “^(?>[^:]+) :1 或 者 占有 优先 量词 “[^:]++:1 就 能 够 直接 抛弃 备用 状态 ， 
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或 者 根本 不 会 创造 多 少 备 用 状态 。 因 为 引擎 没有 内 容 状态 可 以 回 滴 ， 就 不 会 进行 不 必要 的 
回溯 (第 251 页 的 补充 内 容 说 明 ， 足 够 聪明 的 引擎 能 够 自动 进行 这 种 优化 )。 


不 过 ， 我 必须 强调 ， 这 两 种 结构 运用 不 当 ， 就 会 在 不 经 意 间 改变 匹配 结果 ， 所 以 必须 极为 
小 心 。 如 果 不 用 “.*: 而 用 “(?>.*):， 结果 必然 会 失败 。 整 行文 本 都 会 被 .*, 匹配 , 后 面 
的 :就 无 法 匹配 任何 字符 。 固化 分 组 阻止 最 后 的 :匹配 必须 进行 的 回溯, 所 以 匹配 必定 失 
败 。 


主导 引擎 的 匹配 


Lead the Engine to a Match 


提高 正则 表达 式 匹 配 效率 的 另 一 个 办 法 是 尽 可 能 准确 地 设置 匹配 过 程 中 的 “控制 权 "。 我 们 
曾经 看 过 的 用 th(?:islat), 取 代 'thislthat, 的 例子 。 在 后 一 个 表达 式 中 , 多 选 结构 获得 
最 高 级 别 的 控制 权 ， 而 在 前 一 个 表达 式 中 ， 相 对 代价 更 高 唱 的 多 选 结构 只 有 在 “hi 匹配 之 
后 才 获得 控制 权 。 


下 一 节 “ 消 除 循环 ”是 这 种 技巧 的 高 级 形式 ， 此 处 再 介绍 些 简单 的 技巧 。 


将 最 可 能 匹配 的 多 选 分 支 放 在 前 头 


在 本 书 中 我 们 看 到 ， 许 多 时 候 多 选 分 支 的 摆 放 顺序 非常 重要 (728, 176, 189, 216), 在 
这 些 情况 下 ， 摆 放 顺 序 比 优化 更 重要 ， 但 相反 ， 如 果 顺 序 与 匹配 正确 无 关 ， 就 应 该 把 最 可 
能 匹配 的 多 选 分 支 放 在 首位 。 


举例 来 说 ， 在 匹配 主机 名 的 正则 表达 式 (7205) 中 ， 有 人 可 能 习惯 把 后 缀 按照 字母 顺序 排 
序 ， 例 如 (?:aerolbizlcomlcoop|…)i。 不 过 ， 某 些 排 在 前 头 的 后 绥 应 用 并 不 广泛 ， 匹 配 
极 有 可 能 失败 , 为 什么 要 把 他 们 排 在 前 头 呢 ? 如果 按照 分 布 数量 的 排序 :"(? :comledulorgl 
net|…))， 更 有 可 能 获得 更 迅速 更 常见 的 匹配 。 


当然 , 这 只 有 对 传统 型 NFA 引擎 才 适 用 , 而 且 只 有 存在 匹配 的 时 候 才 适用 。 如 果 使 用 POSIX 
NEFA， 或 是 不 存在 匹配 ， 此 时 所 有 的 多 选 分 支 都 必须 检测 ， 所 以 顺序 是 无 关 紧 要 的 。 
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将 结尾 部 分 分 散 到 多 选 结 构 内 


接 下 来 我 们 比较 (?:comleau1..1[a-z] [a-z])\bj 和 "com\bledau\b1..\bl[a-zl[a-zl\b。 
在 后 一 个 表达 式 中 ， 多 选 结构 之 后 的 \b 被 分 散 到 每 个 多 选 分 支 。 可 能 的 收益 就 是 ， 它 可 
能 容许 一 个 多 选 分 支 能 够 匹配 ， 但 多 选 分 支 之 后 的 、\b 可 能 导致 这 个 匹配 不 成 功 ， 把 \b， 
加 到 多 选 结构 之 内 ， 匹 配 失败 的 更 快 。 这 样 不 需要 退出 多 选 结构 就 能 发 现 失败 。 


要 说 明 这 个 技巧 的 价值 ， 这 可 能 还 不 是 最 好 的 办 法 ， 因 为 它 只 是 适用 于 一 种 特殊 情形 ， 即 
多 选 分 支 可 能 能 够 匹配 ， 但 是 之 后 紧 接 的 字符 可 能 令 匹 配 失败 。 在 本 章 中 我 们 会 看 到 一 个 
更 合适 的 例子 一 一 请 参考 280 页 关于 $oTHER* 的 讨论 。 


这 个 优化 是 有 风险 的 。 切 记 ， 使 用 这 个 功能 时 要 小 心 ， 不 要 因此 阻止 了 本 来 可 以 进行 的 其 
他 优化 。 举 例 来 说 ， 如 果 “ 分 散 的 ” 子 表 达 式 是 文字 文本 ， 那 么 把 (? :chislchac) :), 更 
换 为 this: 1that :1 就 违背 了 “将 文字 文本 独立 出 来 ”( 了 255) 中 的 某 些 思想 。 各 种 优化 都 
是 平等 的 ， 所 以 在 优化 时 请 务必 小 心 ， 不 要 因 小 失 大 。 


在 能 够 进行 独立 结尾 锚 点 (256) 的 系统 上 把 正则 表达 式 末 尾 的 '$, 分 散 , 也 会 遇 到 这 种 问 
Bl. TEKH RHEL, (2: comledul...) $: Lb 'com$ ledus! -$ RAS (我 测试 了 各 种 系统 ,只 
有 Perl 使 用 了 这 种 优化 )。 


消除 循环 


Linrolling the Loop 


无 论 系统 本 身 支 持 怎样 的 优化 ， 最 重要 的 收益 或 许 还 是 来 自 于 对 引擎 基本 工作 原理 的 理解 ， 
和 编写 能 够 配合 引擎 工作 的 表达 式 。 所 以 ， 既 然 我 们 已 经 考察 了 繁琐 的 细节 ， 不 妨 登 堂 入 
室 ， 学 习 我 说 的 “消除 循环 ”的 技巧 。 对 某 些 常用 的 表达 式 来 说 ， 它 的 加 速效 果 很 明显 。 
举例 来 说 ， 用 它 改造 本 章 开头 (7226) 会 进行 无 休止 匹配 的 表达 式 ， 能 够 在 有 限 的 时 间 内 
报告 匹配 失败 ， 而 如 果 能 够 匹配 ， 速 度 也 会 更 快 。 


此 处 说 的 “循环 ”采用 的 是 和 (this1that1…) *| 之 类 问题 中 星 号 代表 的 意义 。 之 前 的 无 休止 匹 
配 “(\\ .Ice\\"+)*o 其 实 就 属于 此 类 。 如 果 无 法 匹配 ,这 个 表达 式 需 要 近乎 无 限 的 时 间 
进行 尝试 ， 所 以 必须 改进 。 


ill 
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此 技巧 有 两 种 不 同 的 实现 途径 : 


1. 我 们 可 以 检查 ， 在 各 种 典型 匹配 中 ,QW\ "e A 中 的 哪个 部 分 真正 匹配 成 功 了 ， 
这 样 就 能 留 下 子 表 达 式 的 痕迹 。 再 根据 刚刚 发 现 的 模式 ， 重 新 构建 高 效 的 表达 式 。 这 个 
(或 许 联系 不 那么 紧密 的 ) 概念 模型 就 是 一 个 大 球 ， 它 表示 表达 式 (…) *,， 球 在 某 些 文 
本 上 滚动 。(…)) 内 的 元 素 总 是 能 够 匹配 某 些 文本 , 这样 就 留 下 了 痕迹 ， 就 好 像 是 把 脏 今 
今 的 雪 球 在 地 毯 上 滚 过 去 一 样 。 


2. 另 一 个 办 法 是 ， 从 更 高 的 层面 考察 我 们 期 望 用 于 匹配 的 结构 。 然 后 根据 我 们 认为 的 常见 
情形 ， 对 可 能 出 现 的 目标 字符 串 做 出 非 正式 假设 。 从 这 个 角度 出 发 构建 有 效 的 表达 式 。 


无 论 采 取 哪 种 办 法 ， 得 到 的 表达 式 都 是 一 样 的 。 我 首先 讲解 第 一 种 思路 ， 然 后 介绍 如 何 通 
过 第 二 种 思路 取得 同样 的 结果 。 


为 了 保证 例子 容易 看 情 , 并 尽 可 能 广泛 地 使 用 , 我 会 使 用 (…) ,来 代替 所 有 括号 , 如 果 程 序 
支持 非 捕 获 型 括号 '(?:…) ;能 够 支持 , 使 用 它们 能 提高 效率 。 然 后 会 讲解 固化 分 组 (7139) 
和 占有 优先 量词 (7142) 的 使 用 。 


方法 1: 依据 经 验 构 建 正则 表达 式 


Method 1: Building a Regex From Past Expertences 


在 分 析 “"(\\.1[^\\"]+)* 时 , 用 若干 具体 的 字符 串 来 检验 全 局 匹配 的 具体 情况 是 很 自然 
的 做 法 。 举 例 来 说 ， 如 果 目 标 字符 串 是 “"hi"' ， 那 么 使 用 的 自 表 达 式 就 是 “[^\\"1+ "1。 
这 说 明 ， 全 局 匹配 使 用 了 最 开始 的 “";,， 然 后 是 多 选 分 支 '[^\\"]+1， 然 后 是 末 是 的 "1。 


"he said \"hi there\" and left" 


RRA FASB "AE OVA AN Ane FETA BOR 6-2, $ 
标记 了 对 应 的 正则 表达 式 ， 让 模式 更 显眼 。 如 果 我 们 能 对 每 个 输入 字符 串 构 造 特定 的 表达 
式 当 然 很 好 。 这 不 可 能 ， 但 我 们 能 够 找 出 一 些 常用 的 模式 ， 构 造 效 率 更 高 ， 又 不 失 通用 性 
的 正则 表达 式 。 


现在 来 看 表 6-2 前 面 的 四 个 例子 。 下 夯 线 标注 的 部 分 表示 “一 个 转 义 元 素 , 然后 是 更 多 的 正 
常 字符 ”。 这 就 是 关键 : 在 每 种 情况 下 ， 开 头 是 引号 ， 然 后 是 '[^\\"]+;， 然 后 是 若干 个 
AALI" + SEA RE RRB COV DEAN. [~^\\"]+)*1。 这 个 特殊 的 例子 说 明 ， 通 用 模 
式 可 以 用 来 构建 许多 有 用 的 表达 式 。 


www.TopSage.com 


消除 循环 263 





表 6-2: 消除 循环 的 具体 情况 


目标 字符 串 ë ”| 对 应 的 表达 3 | 

"hi there" vat ae had he 

“just one \" here" N\A 

"some \"quoted\" things" "人 \\"] + [人 \\") + BANA +" 

“with \"a\" and \"b\"." ["(*\\") +R (*\\" ) + SRS ANN" ] + 人"]+ BR +" 
"\"ok\"\n" "XN2 (*\\" M NS” 

"empty \"\" quote” [M] Be (*\\") +" 


构造 通用 的 “消除 循环 ”解法 


在 匹配 双 引 号 字符 串 时 ， 引 号 自身 和 转 义 斜 线 是 “特殊 ”的 一 一 因为 引号 能 够 表示 字符 串 
的 结尾 , 反 斜 线 表示 它 之 后 的 字符 不 会 终结 整个 字符 串 。 在 其 他 情况 下 , ![^\\"]) 就 是 普通 
的 点 号 。 考 察 它们 如 何 组 合 为 “[^\"]+ (WE[^\\"]+)*)， 首 先 它 符合 通用 的 模式 
normal+ (special normal: ) * |, 





再 添加 两 端的 引号 ， 就 得 到 “" [^\"]+ AA Ao RERE, X 6-2 中 下 面 两 个 例 
子 无 法 由 这 个 表达 式 匹配 。 症 结 在 于 , 目前 这 个 正则 表达 式 的 两 个 'T^\\"] + 要 求 字 符 串 以 
一 个 普通 字符 开始 ， 然 后 是 任何 数目 的 特殊 字符 。 从 这 个 例子 中 我 们 可 以 看 到 ， 它 并 不 能 
应 付 所 有 情况 一 一 字符 串 可 能 以 转 义 元 素 开 头 和 结尾 ,一 行 中 间 也 可 能 包含 两 个 转 义 元 素 。 


我 们 可 以 尝试 把 两 个 加 号 改 成 星 号 : " [^\\"]* (定量 [^\\"]*)*"。 这 会 达到 我 们 期 望 的 结 
果 吗 ? 更 重要 的 是 ， 它 是 否 会 产生 负面 影响 ? 


就 期 望 的 结果 来 说 ， 很 容易 看 到 所 有 的 例子 都 能 匹配 。 事 实 上 ， 即 使 是 "\"\"\ "这 样 的 字 
符 串 都 能 匹配 。 这 当然 很 不 错 。 不 过 ， 我 们 还 需要 确认 ， 这 样 重大 的 改变 ， 是 否 会 导致 预 
料 之 外 的 结果 。 格 式 不 对 的 引号 字符 串 能 否 匹 配 呢 ? 格式 正确 的 引号 字符 串 是 否 可 能 无 法 
匹配 呢 ? 效率 又 如 何 呢 ? 

FEE avg AAE u. FRR vu 只 会 应 用 一 次 , 这 没有 问题 : 它 
匹配 开头 必须 出 现 的 引号 ， 以 及 之 后 的 任何 普通 字符 。 这 没有 问题 。 接 下 来 的 
(MN. (O\\" 1 *) ES REN, 所 以 不 匹配 任何 字符 也 能 够 成 功 。 也 就 是 说 , 去掉 这 一 
部 分 仍然 会 得 到 一 个 合法 的 表达 式 。 这 样 我 们 就 得 到 [^\\"]*"， 这 显然 没有 问题 一 一 它 
代表 了 常见 的 ， 也 就 是 没有 转 义 元 素 的 情形 。 


另 一 方面 , WR AN. [人 ^\"]*)* 部 分 匹配 了 一 次 ,其实 就 等 价 于 和 [人 ^\"] RE ye, 
Se p ee 
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即使 结尾 的 [^\\ “六 没有 匹配 任何 文本 (SESE ANN), BAAR., Rik 
样 分 析 下 去 (如果 没 记 错 的 话 ， 这 就 是 高 中 代数 中 的 “了 照 此 类 推 (by induction)”)， 我 们 发 
现 ， 这 样 的 改动 其 实 是 没有 任何 问题 的 。 


所 以 ， 我 们 最 后 得 到 的 ， 用 来 匹配 包括 转 义 引号 的 引号 字符 串 的 正则 表达 式 就 是 ; 
Pm [AM] (NN ENN A) wo 


真正 的 “消除 循环 ”解法 


The Real “Unrolling-the-Loop ” Pattern 


综合 起 来 ,匹配 包括 转 义 引 号 的 双 引 号 字符 串 正 则 表达 式 就 是 "{^\\"l*tN\\.[I^\V"jw)x， 
这 和 原来 的 表达 式 能 够 匹配 的 结果 是 完全 一 致 的 。 但 是 循环 消除 之 后 ， 表达 式 能 够 在 有 限 
的 时 间 内 结束 匹配 。 不 但 效率 高 得 多 ， 并 且 避 免 了 无 休止 匹配 。 


消除 循环 常用 的 解法 是 : 


‘opening normal* (special normal* )* closing 


避免 无 休止 匹配 


BEB CONT OA IAA) 中 的 无 休止 匹配 ， 有 三 点 很 重要 : 
1) special 部 分 和 normal 部 分 匹配 的 开头 不 能 重合 。 


special 和 normal 部 分 的 子 表 达 式 不 能 从 同一 位 置 开始 匹配 。 在 上 例 中 ，normal 部 分 是 
EAA", special 部 分 是 仆 .,， 显 然 它 们 不 能 匹配 同样 的 字符 ， 因 为 后 者 要 求 以 反 斜 线 开 
头 ， 而 前 者 不 容许 出 现 开头 的 反 斜 线 。 


PA, AA [^"] 都 能 够 从 “"Hello \n"” 开 始 匹配 ， 所 以 它们 不 符合 这 种 解法 。 

如 果 二 者 能 够 从 字符 串 中 的 同一 位 置 开 始 匹配 ， 就 无 法 确定 该 使 用 哪 一 个 ， 这 种 不 确定 就 
会 造成 无 休止 匹配 。'‘maku8enaru8e” 的 例子 说 明了 这 一 点 (一 227)。 如 果 无 法 匹配 (或 是 
POSIX NFA 引擎 在 任何 情况 下 的 匹配 ) ， 就 必须 尝试 所 有 的 可 能 性 。 这 非常 精 糕 ， 因 为 改进 
这 个 表达 式 的 首要 原因 就 是 为 了 避免 这 种 情况 。 


如 果 我 们 确信 ，special 和 normal 部 分 不 能 匹配 同样 的 字符 , 就 可 以 将 special 部 分 用 作 检 查 
点 ,消除 normal 部 分 在 '(…) *, 的 各 轮 迭 代 时 匹配 同样 文本 造成 的 不 确定 性 。 如 果 我 们 确信 
special 部 分 和 normal 部 分 永远 不 会 匹配 同样 的 文本 ， 则 特定 目标 字符 串 的 匹配 中 存在 唯一 
的 special 部 分 和 normal 部 分 的 “组 合 序列 ”。 检 查 这 个 序列 比 检查 成 千 上 万 种 可 能 要 快 得 
£, FERE TEREE., 
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2) normal 部 分 必须 匹配 至 少 一 个 字符 


第 二 点 是 ， 如 果 normal 部 分 需要 匹配 字符 才能 成 功 ， 则 它 必 须 匹 配 至 少 一 个 字符 。 如 果 我 
们 能 够 匹配 成 功 ， 而 不 占用 任何 字符 ， 那 么 下 面 的 字符 仍然 必须 由 special normal +) *; fi’) 
不 同 迭 代 来 匹配 ， 这 样 我 们 就 回 到 了 原来 的 (…*)* 的 问题 。 


选择 '(\\.)*, 作 为 special 部 分 就 违背 了 这 条 规定 。" [^\\"]*( ES 是 [^\\."]*)*" 注 定 是 
个 糟糕 的 表达 式 ， 如 果 用 它 来 匹配 “"Tubby” (会 失败 )， 在 得 到 匹配 失败 的 结论 之 前 ， 引 
人 擎 必须 尝试 若干 个 '[^\\*"] si 匹配 “Tubby ”的 每 一 种 可 能 。 因 为 special 部 分 可 以 不 匹配 任 
何 字 符 ， 所 以 它 无 法 作为 检查 点 。 


3) special 部 分 必须 是 固化 的 


special 部 分 匹配 的 文本 不 能 由 该 部 分 的 多 次 迭代 完成 。 如 果 需 要 匹配 Pascal 中 可 能 出 现 的 
注释 (…} 和 空白 。 能 够 匹配 注释 部 分 的 正则 表达 式 是 CI^)] *\)， 所 以 整个 正则 表达 式 就 
RECN CLO) *\) bee ts ( 它 永 远 不 会 终止 )。 或 许 ， 你 会 这 样 划分 normal 和 special 部 分 : 


Me a>, j 
OMe: e SARK ) E EA a oe 3: 


SALDAN 













使 用 我 们 学 会 的 ‘normal* (special normal*)* | 9 WR, ROBB OAD] * 
(于 (\([^}]*\))*)*i。 现 在 来 看 这 个 字符 串 


{comment }***{another}** 


匹配 连续 空格 的 可 能 是 单个 +, 或 多 个 “+ 匹配 (每 个 匹配 一 个 空格 ) , 或 是 多 个 “+ 的 组 
合 (每 个 匹配 不 同 数 目的 空格 ) 。 这 很 像 之 前 的 “makudaonarudao” 的 问题 。 


UUUUUUUUUUUU 


此 问题 的 根源 在 于 ，special 部 分 既 能 够 匹配 很 长 的 文本 ,也 能 通过 (…) * 匹 配 其 中 的 部 分 文 
本 。 非 确定 性 开 了 “多 种 方式 匹配 同样 文本 ”的 口子 。 


如 果 存 在 全 局 匹配 , 很 可 能 “+ 只 匹配 一 次 , 但 是 如 果 不 存在 全 局 匹配 (例如 把 这 个 表达 式 
作为 另 一 个 大 的 表达 式 的 一 部 分 ), 引擎 就 必须 对 每 一 段 空 格 测试 ("+)*, 所 有 的 可 能 。 这 需 
要 时 间 ， 但 这 对 全 局 匹配 无 益 。 因 为 special 部 分 应 该 作为 检查 点 ， 而 这 里 没有 任何 需要 检 
查 的 非 确定 性 。 


解决 的 方法 就 是 ， 保 证 special 部 分 只 能 够 匹配 固定 长 度 的 空格 。 因 为 它 必 须 匹配 至 少 一 个 
空格 ,但 可 能 匹配 更 多 ,我 们 用 "作为 special 部 分 ， 用 (…) * 来 保证 special 的 多 重 应 用 
能 匹配 多 个 空格 。 
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这 个 例子 很 适合 讲解 ， 但 是 实际 应 用 起 来 ， 效 率 更 高 的 办 法 可 能 是 交换 special 和 normal 
表达 式 : 

‘+ (CEPR: *) +, 
为 我 估计 Pascal 程序 的 注释 不 会 比 空格 少 ,而 且 对 常见 情况 来 说 更 有 效 的 办 法 是 用 mormal 
部 分 匹配 常见 的 文本 。 


寻找 通用 套路 


如 果 你 真正 掌握 了 这 些 规则 (可 能 需要 反复 阅读 和 一 些 实践 ) ， 你 就 能 把 这 几 条 推广 开 来 ， 
作为 指导 规则 ， 用 来 识别 可 能 造成 无 休止 匹配 的 正则 表达 式 。 如 果 有 若干 个 量词 存在 于 不 
同 的 层面 , 例如 (…*) *, 我 们 就 必须 小 心 对 待 , 但 是 许多 这 样 的 表达 式 却 是 完全 没有 问题 
的 。 例 如 : 


© (Re:**)* 用 来 匹配 任意 数目 的 “Re:” 序列 (可 以 用 来 清除 邮件 主题 中 的 “subject: 


*Re:*Re:*Re:*hey’), 
© “("*\$[0-9]+)* 用 来 匹配 美元 金额 ， 可 能 有 空格 作 分 隔 。 


” “(.*\n)ti 用 来 匹配 一 行 或 多 行文 本 。( 事 实 上 ， 如 果 点 号 不 能 匹配 换行 符 ， 而 这 个 子 
表达 式 之 后 又 有 别 的 元 素 导 致 匹配 失败 ， 就 会 造成 无 休止 匹配 ) 。 


这 些 表达 式 都 没有 问题 ， 因 为 每 一 个 都 有 检查 点 ， 也 就 不 会 产生 “多 种 方式 匹配 同样 文本 ” 
的 问题 。 在 第 一 个 里 面 是 Reu BAERE nS, BZA (如果 点 号 不 能 匹配 换行 符 ) 
E'n. 


方法 2: 自 顶 向 下 的 视角 


Method 2: A Top-Down View 


还 记得 吗 ? 我 说 过 ,“ 消 除 循环 ”有 两 种 办 法 。 如 果 采 用 第 二 种 办 法 ， 开 始 只 匹配 目标 字符 
串 中 最 常见 的 部 分 ， 然 后 增加 对 非常 见 情 况 的 处 理 。 让 我 们 来 看 会 造成 无 休止 匹配 的 表达 
FONE A" A 期望 匹配 的 文本 以 及 它 可 能 应 用 的 场合 。 我 认为 ， 通 常情 况 下 引用 字 
符 串 中 的 普通 字符 会 比 转 义 字符 更 多 ， 所 以 上 [^\"]+ 承担 了 大 部 分 工作 。"\\ .只 需要 用 
来 处 理 偶 然 出 现 的 转 义 字 符 。 我 们 可 以 使 用 多 选 结 构 来 应 付 两 种 情况 ， 但 精 糕 的 是 ， 为 了 
处 理 少 部 分 ( 决 不 可 能 是 大 部 分 ) 转 义 字符 ， 这 样 做 会 降低 效率 。 


如 果 我 们 认为 T^\\"] + 能 够 匹配 字符 串 中 的 绝 大 部 分 字符 , 就 知道 如 果 匹 配 停止 , 大 概 是 
过 到 了 闭 引 号 或 者 是 转 义 字符 。 如 果 是 转 义 字符 , 后 面容 许 出 现 更 多 的 字符 (无 论 是 什么 )， 
然后 开始 [~^\\"]+! 的 新 一 轮 匹配 。 每 次 [~^\\"]+ 的 匹配 终止 , 我们 都 回 到 相同 的 处 境 : 期 
望 出 现 一 个 闲 引号 或 者 是 另 一 个 转 义 。 
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我 们 可 以 很 自然 地 用 一 个 表达 式 来 表达 它 ， 得 到 与 方法 1 同样 的 结果 : 


f 


of Gand We TN 
A 


我 们 知道 ， 匹 配 每 次 进行 到 ,标记 的 位 置 时 ， 应 该 出 现 一 个 反射 线 或 者 闭 双 引号 。 如 果 反 和 斜 
线 能 匹配 ， 就 匹配 它 ， 然 后 是 被 转 义 的 字符 ， 然 后 是 更 多 的 字符 ， 直 到 下 一 次 到 达 “ 闭 引 
号 或 者 反 斜 线 ”的 位 置 。 


和 之 前 一 样 ， 最 开始 的 非 引 用 内 容 或 是 引号 内 的 文本 可 能 为 空 。 我 们 可 以 把 两 个 加 号 改 成 
星 号 ， 这 样 就 得 到 与 264 页 相同 的 表达 式 。 


方法 3， 匹配 主机 名 


Method 3: An Internet Hostname 


上 面 介 绍 了 两 种 消除 循环 的 办 法 ， 不 过 我 还 愿意 介绍 另 一 种 办 法 。 在 用 正则 表达 式 匹 配 如 
www.yahoo.com 这 样 的 主机 名 时 ， 它 令 我 震惊 。 主 机 名 主要 是 用 点 号 分 隔 的 子 域名 的 序列 ， 
准确 地 划 定 子 域名 的 匹配 规范 很 麻烦 (7203), 为 了 保证 清晰 ， 我 们 使 用 '[a-z]+ /来 匹配 
子 域 名 。 


如 果子 域名 是 ia-z]+ ;, 我 们 希望 得 到 点 号 分 隔 的 子 域名 序列 , 首先 要 匹配 第 一 个 子 域名 。 
之 后 其 他 的 子 域名 以 点 号 开头 。 用 正则 表达 式 来 表示 ， 就 是 [a-zl+(t\.[a-zl+)*i。 现 在 ， 
如 果 我 希望 添加 上 前 面 出 现 的 各 种 标记 , 就 得 到 [a-z]l+(\.[a-zl+)*i， 显然 它 看 起 来 非常 
熟悉 ， 对 吗 ? 


为 了 说 明 这 种 相似 性 ， 我 们 尝试 把 它 对 应 到 双 引 号 字符 串 的 例子 。 如 果 我 们 认为 字符 串 是 

eer? ZARE, pi normal BS} '(*\\" 1, HA special 部 分 \ 八 . 分隔， 就 能 套用 消 
除 循环 的 解法 ， 得 到 “"I^\\"srtA\.ieA\+)*o 中， 也 就 是 在 讨论 方法 1 中 的 某 个 地 步 。 
也 就 是 说 ， 从 概念 上 讲 ， 我们 能 够 把 由 点 号 分 隔 的 主机 名 的 问题 看 成 双 引 号 字符 串 的 问题 ， 
也 就 是 “由 转 义 元 素 分 隔 的 非 转 义 元 素 构成 的 序列 ”。 这 可 能 不 那么 直观 ， 但 是 我 们 可 以 使 
用 前 面 用 过 的 套路 。 


二 者 既 存 在 相似 性 ， 也 存在 区 别 。 在 方法 1 中 ， 我 们 改变 正则 表达 式 是 为 了 容许 normal 部 
分 和 special 部 分 之 后 出 现 空白 ， 但 是 这 里 不 容许 出 现 空白 。 所 以 虽然 这 个 例子 与 之 前 的 并 
非 完 全 相同 ， 但 也 属于 同一 类 ， 同 样 可 以 用 来 证 明 背 除 循环 的 技巧 的 强大 和 便捷 。 


iii 
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子 域名 的 例子 与 之 前 的 例子 有 两 大 区 别 : 
° ”域名 的 开始 和 结束 没有 分 界 符 。 


。 PRAH normal 部 分 不 可 能 为 空 (也 就 是 说 两 个 点 号 不 能 紧 挨 在 一 起 ， 点 号 也 不 能 出 
现在 整个 域名 的 开头 或 结尾 )。 对 双 引 号 字符 串 来 说 ，normal 部 分 可 以 为 空 , 即使 按照 
我 们 的 假设 它们 不 太 应 该 为 空 。 所 以 我 们 需要 把 ‘~^\"] KAA. MPERA 
的 例子 不 能 进行 这 种 修改 ， 因 为 special 部 分 是 分 隔 符 ， 必 须 出 现 。 


观察 


Observations 


回 过 头 来 看 双 引 号 字符 串 的 例子 , RAA wana ono n 有 许多 优点 , 也 存在 
一 些 陷 阱 。 


陷阱: 


。 TRE 这 是 最 大 的 问题 ,原来 的 "" ([^\\"] IN\\.)*" 可 能 更 容易 一 眼看 懂 , 我 们 放弃 
了 可 读 性 来 追求 效率 。 


” ”可 维护 性 可 维护 性 可 能 更 复杂 ， 因 为 任何 改动 都 必须 保持 对 两 个 [^\\"] 相同 。 我 们 
牺牲 了 可 维护 性 来 追求 效率 。 


好 处 : 


。 RE 如 果 不 能 匹配 ， 或 是 采用 POSIX NFA， 这 个 正则 表达 式 不 会 进入 无 休止 匹配 。 
因为 进行 了 精心 地 调 校 ， 特 定 的 文本 只 能 以 唯一 的 方式 匹配 ， 如 果 文 本 不 能 匹配 ， 引 
擎 会 迅速 发 现 它 。 


。 “还 是 速度 正则 表达 式 “ 操 作 连 续 性 (flow)” 很 好 ， 这 也 是 “流畅 运转 的 正则 表达 式 ” 
(7277) 的 主题 。 我 对 传统 型 NFA 进行 了 检测 ， 消 除 循环 之 后 的 表达 式 总 是 比 之 前 
使 用 多 选 结构 的 表达 式 要 快 得 多 。 即 使 匹配 能 够 成 功 ， 不 会 进入 无 休止 匹配 状态 时 ， 
也 是 如 此 。 


使 用 固化 分 组 和 占有 优先 量词 


Using Atomic Grouping and Possessive Quantifiers 


表达 式 "(\\ .1[^\"]+)*") 之 所 以 会 进入 无 休止 匹配 的 状态 ， 问 题 在 于 ， 如 果 无 法 匹配 ， 
它 会 陷 人 徒劳 的 尝试 。 不 过 ,如果 存在 匹配 ， 就 能 很 快 结束 ， 因 为 [^\\ "1+; 能 够 匹配 目标 
字符 串 中 的 大 多 数字 符 (也 就 是 之 前 讨论 过 的 normal 部 分 )。 因 为 ![…]+), 通 常会 为 速度 优 
化 (=247)， 而 且 能 够 匹配 大 多 数字 符 ， 外 面 的 '(…) * ,量词 的 开销 因此 大 为 减少 。 


i 
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所 以 ,t+ 的 问题 就 在 于 ， 不 会 在 匹配 时 会 陷 人 徒劳 的 尝试 ， 在 我 们 知道 
毫 无 用 处 的 备用 状态 之 中 不 断 回潮 。 我 们 知道 这 些 状态 毫 无 价值 ， 因 为 他 们 只 是 检查 同样 
对 象 的 不 同 排列 (如果 abc 不 能 匹配 “foo”, ABZ ‘abc: RH ‘abe: (WR ‘abc, ‘abe: RF 
无 论 什么 形式 的 abe) 都 不 能 匹配 。 如 果 我 们 能 抛弃 这 些 状 态 ， 正 则 表达 式 就 能 迅速 报告 
匹配 失败 )。 


抛弃 (或 者 是 忽略 ) 这 些 状 态 的 方法 有 两 种 : 固化 分 组 (7139) 或 者 占有 优先 量词 (142)。 


在 我 们 着 手 消除 回溯 以 前 ， 我 希望 交换 多 选 分 支 的 顺序 ， 把 “"(\\.1[^\\"]+)*") 变 为 
(IWMI\\.)*"， 这 样 匹 配 “ 普 通 ” 文 本 的 元 素 就 出 现在 第 一 位 。 前 几 章 中 我 们 已 经 
数 次 提 到 过 ， 如 果 两 个 或 两 个 以 上 的 多 选 分 支 能 够 在 同一 位 置 匹配 ， 排 列 顺序 的 时 候 就 要 
小 心 ， 因 为 顺序 可 能 影响 到 匹配 的 结果 。 但 对 于 本 例 来 说 ， 不 同 多 选 分 支 匹 配 的 是 不 同 的 
文本 〈 某 个 多 选 分 支 在 一 处 能 够 匹配 ， 则 其 他 多 选 分 支 在 此 处 就 不 能 匹配 ) ， 从 正确 匹配 的 
角度 来 看 ， 顺 序 就 是 无 关 紧 要 的 ， 所 以 我 们 可 以 根据 清晰 或 效率 的 要 求 来 选择 顺序 。 


使 用 占有 优先 量词 避免 无 休止 匹配 


会 造成 无 休止 匹配 的 表达 式 “"((^\\"1+rIN\.)s 有 两 个 量词 。 我 们 可 以 把 其 中 一 个 改 为 占 
有 优先 量词 ， 或 者 两 个 都 改 。 这 两 者 有 区 别 吗 ? 因为 大 多 数 回溯 的 麻烦 源 自 '[…]+ 留 下 的 
状态 ， 所 以 把 它 改 成 占有 优先 是 我 的 第 一 想法 。 这 样 得 到 的 表达 式 ， 即 使 找 不 到 匹配 ， 速 
度 也 很 快 。 不 过 ， 把 外 面 的 “(…) *, 改 成 占有 优先 会 抛弃 括号 内 的 所 有 备 选 状态 ， 其 中 包括 
'[…]+1 和 多 选 结构 本 身 的 备 选 状态 ， 所 以 如 果 我 要 从 中 选取 一 个 的 话 ， 我 会 选取 后 者 。 


但 我 们 并 非 只 能 选择 一 个 ， 因 为 我 们 可 以 把 两 个 都 改 为 占有 优先 量词 。 具 体 哪 种 办 法 最 快 ， 
可 能 取决 于 占有 优先 量词 的 优化 情况 。 现 在 ， 只 有 Sun 的 Java regex package 支持 这 种 表示 
法 ， 所 以 我 的 测试 只 能 在 Java 中 进行 ， 并 且 发 现 某 些 情形 下 其 中 一 种 组 合 更 快 。 我 原本 期 
望 ， 使 用 两 个 占有 优先 量词 是 最 快 的 ， 所 以 这 些 结果 让 我 相信 ，Sun 的 优化 还 不 够 彻底 。 


使 用 固化 分 组 避免 无 休止 匹配 


如 果 要 对 “…"([^\\"]r+rlN\.)*" 使 用 固化 分 组 , 最 容易 想到 的 办 法 就 是 把 普通 括号 改 成 固化 
分 组 括号 : "(?>[^\\"J+lN\.)*i。 不 过 我 们 必须 知道 , 在 抛弃 状态 的 问题 上 , '(?>…1…)*) 
与 占有 优先 的 “(…1…) *+ ! 是 过 然 不 同 的 。 


if 
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euie tu ERRITAN FEMRA, 相反 , '(?>…1…) t 只 是 消除 多 选 结构 每 次 迄 代 时 
保留 的 状态 。 星 号 是 独立 于 固化 分 组 的 ， 所 以 不 受 影响 ， 这 个 表达 式 仍 然 会 保留 “ 跳 过 本 
轮 迭 代 ” 的 备用 状态 。 也 就 是 说 ， 回 调 中 的 状态 仍然 不 是 确定 的 最 终 状 态 。 我 们 希望 同时 
消除 外 面 量词 的 备用 状态 ， 所 以 要 把 外 面 的 括号 也 改 成 国 化 分 组 。 也 就 是 说 模拟 占有 优先 
peleo *+1 必 须 用 到 "(?>(…1…)*)， 。 

解决 无 休止 匹配 的 问题 时 ，(…1…)*+y 和 '(?>…1…)* 都 很 有 用 , 但 是 它们 在 抛弃 状态 的 选 
择 和 时 间 上 却 是 不 同 的 (更 多 的 差异 ， 请 参阅 173 页 )。 


简单 的 消除 循环 的 例子 


Short Unrolling Examples 


现在 我 们 大 概 了 解 了 消除 循环 的 思想 ， 来 看 看 书 中 曾经 出 现 过 的 几 个 例子 ， 想 想 该 如 何 消 
除 循环 。 


消除 “多 字符 ”引文 中 的 循环 
在 第 4 章 第 167 页 ， 我 们 看 到 这 个 例子 : 


<B> # 匹配 开头 的 <B> 
( # 现在 匹配 尽 可 能 多 的 … 
(?! </?B> ) # 如 果 不 是 <B> 也 不 是 </B> … 
. # … 任 何 字 符 都 没 问 题 
) * # (匹配 优先 量词 ) 
</B> # <ANNO> 直 到 结束 边界 
normal 部 分 是 [^<])， special 部 分 是 (?!</?B>)<j， 下 面 是 改进 的 版 本 
<B> # 匹配 开头 的 <B> 
(?> [*<]*) # 匹配 任意 数量 的 "normal"… 
(?> # 任意 数量 的 … 
(?! < /? B> ) # 如 果 不 是 <B> 也 不 是 </B> 
< # 匹配 "special" 
LE # ”然后 继续 匹配 任意 数量 的 "normal”" 
# 
</B> E 最 后 匹配 结尾 的 </ 了 > 
这 里 固化 分 组 并 不 是 必须 的 ， 但 如 果 只 能 部 分 匹配 ， 使 用 固化 分 组 能 够 提高 速度 。 
消除 连续 行 匹 配 例子 中 的 循环 


连续 行 的 例子 出 现在 前 一 章 的 开头 (=186), 当时 使 用 的 表达 式 是 “\w+=([^\nN\JIN\.)wa 
看 起 来 这 很 适合 应 用 这 种 技巧 : 

”AMw+ = # 开头 的 文字 和 '=， 

# 现在 读 取 (并 且 捕 获 ) Å... 

( 


(?> ([*\n\\]* ) # “normal"* 
(2> \\. [ANNANT 3 * # ( "special" "“normal"*)* 


ti 
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与 上 一 个 例子 一 样 ， 固 化 分 组 不 是 必须 的 ， 但 它 能 让 引擎 更 快 地 报告 匹配 失败 。 


消除 CSV 正则 表达 式 中 的 循环 


第 5 章 用 了 很 长 的 篇 幅 讨论 CSV 的 处 理 ， 最 后 得 到 第 216 页 的 代码 : 


,ea ree 
(?:# 或 者 是 匹配 双 引 号 字段 (其 中 容许 出 现 连 在 一 起 的 成 对 双 引 号 ) ... 
“ # {起 始 双 引号 ) 
Ree TST he pe 
"” # {结束 双 引 号 ) 
| 
# 1... 或 者 是 引号 和 过 号 之 外 的 文本 . . 、 
ny Rated hae 
) 


当时 的 结论 是 ,最 好 在 开头 添加 AC, 这 样 就 能 避免 驱动 过 程 带 来 的 麻烦 ,并 生效 率 也 会 提 
高 。 现 在 我 们 知道 如 何 消除 循环 ， 就 可 以 此 技巧 来 看 看 如 何 应 用 这 个 例子 。 


用 来 匹配 微软 的 CSV 字符 串 的 正则 表达 式 是 "3?:[I^"11"")*， 它 看 起 来 很 不 错 。 其 实 ， 这 
个 表达 式 已 经 区 分 了 normal 和 special 部 分 :"[^"]; 和 和 "",。 下 面 我 们 把 这 个 表达 式 写 清楚 ， 
用 原来 的 Perl 代码 说 明 消 除 循环 的 过 程 : 


while ($line =~ m{ 
\G(?:*1,) 
(?: 
# 或 者 匹配 双 引 号 字段 (其 中 容许 出 现 连 在 一 起 的 成 对 双 引 号 ) ? 
# 起 始 双 引号 
( (?> [A] ) (?> "= [es] ye ) 
# 结束 双 引 号 
# .. .或 者 是 
| 
# 1... 或 者 是 引号 和 过 号 之 外 的 文本 . ，. 
(人 
) 


}gx) 
{ 
if (defined $2) { 
$field = $2; 
} else { 
Sfield = $1; 


$field =~ s/""/"/g; 
} 
print "($field)"; # 输出 字段 的 值 以 供 调试 
现在 处 理 SfielG.. . 
} 


如 其 他 的 例子 一 样 ， 固 化 分 组 不 是 必须 的 ， 但 可 以 提高 效率 。 


ll 
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消除 C 语言 注释 匹配 的 循环 


Unrolling C Comments 


现在 来 看 个 匹配 更 复杂 字符 串 时 消除 循环 的 例子 。 在 C 语言 中 ， 注 释 以 人 * 开 头 ，*/ 结 尾 ， 
可 以 有 多 行 ， 但 不 能 嵌 套 (C++、Java 和 C# 也 容许 这 种 形式 的 注释 )。 匹 配 此 类 注释 的 正 
则 表达 式 在 许多 情况 下 都 有 用 ， 例 如 构建 去 掉 注 释 的 过 滤 程 序 。 写 这 个 程序 时 我 首先 想到 
的 就 是 消除 循环 ， 而 这 个 技巧 现在 已 经 成 为 我 的 正则 表达 式 宝 库 中 的 重要 装备 。 


真 的 需要 消除 吗 


我 在 20 世纪 90 年 代 早期 就 开始 开发 本 节 讨 论 的 这 个 正则 表达 式 。 在 那 之 前 ， 人 们 认为 用 
正则 表达 式 匹 配 C 语言 的 注释 即使 不 是 不 可 能 ， 也 是 很 困难 的 事情 ， 所 以 一 些 可 行 的 办 法 
由 我 开发 出 来 之 后 ， 就 成 为 匹配 C 语言 注释 的 标准 方法 。 不 过 ， 在 Perl 引入 忽略 优先 量词 
之 后 ， 出 现 了 简单 得 多 的 办 法 : 使 用 能 匹配 所 有 字符 的 点 号 八 *.*?\*/h 


在 我 写 程序 的 时 候 忽略 优先 量词 还 设 有 出 现 ， 如 果 当 时 有 这 种 现成 的 特性 ， 就 不 用 费 这 么 
多 周折 了 。 不 过 ， 我 的 解决 办 法 仍然 是 有 效 的 ， 因 为 即使 在 首次 支持 忽略 优先 量词 的 那 一 
版 Perl 中 ， 使 用 消除 循环 技巧 的 程序 仍然 要 比 使 用 忽略 优先 量词 的 快 得 多 (我 做 了 许多 种 
测试 ， 有 时 快 S0%， 也 有 时 快 360%)。 


Ait, Perl 现在 综合 了 各 种 优化 措施 ， 形 势 就 颠倒 过 来 ， BER CEA Roe 
到 550%, PRUAFR BUTERA '/\*.*2\*/) ROCA C 语言 的 注释 。 


这 是 否 意味 着 ， 现 在 匹配 C 语言 注视 用 不 着 消除 循环 的 技巧 了 ? 如 果 引 擎 不 支持 忽略 优先 
量词 ， 消 除 循环 的 价值 就 能 体现 出 来 。 也 不 是 所 有 的 正则 引擎 都 能 综合 各 种 优化 : 在 我 测 
试 的 其 他 任何 语言 中 ， 消 除了 循环 的 程序 都 要 更 快 一 一 最 快 的 时 候 速度 相差 60 倍 ! 消除 循 
环 的 技巧 确实 很 有 用 ， 所 以 下 文 讲解 如 何 用 它 来 匹配 C 语言 注释 。 


因为 匹配 C 语言 注释 时 不 存在 双 引 号 字符 串 中 转 义 字符 \" 的 问题 ， 可 能 有 人 和 觉得 事情 会 比 
较 简 单 ， 但 问题 其 实 更 复杂 。 因 为 这 里 的 “结束 双 引 号 ”*/ 不 止 一 个 字符 。 直 接 用 
A\*[^*]*\*/1 可 能 看 起 来 没 问 题 ， 但 不 能 匹配 /**some comment here**/， 因 为 其 中 还 
有 “*" ， 而 这 是 必须 匹配 的 ， 所 以 我 们 需要 另外 的 办 法 。 
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换 更 清晰 的 表示 方法 


你 可 能 觉得 " 八 * [~*]*\*/ ,难以 阅读 , 即使 本 书 的 体例 已 经 尽量 做 到 容易 看 懂 。 但 不 幸 的 是 ， 
注释 部 分 的 边界 符 “* ”本身 就 是 正则 表达 式 的 元 字符 ， 所 以 得 使 用 反 斜 线 转 义 ， 结 果 正 则 
表达 式 看 起 来 让 人 头疼 。 为 了 看 得 更 清楚 ， 我 们 在 这 个 例子 中 使 用 /x…x/， 而 不 是 /*…*/。 
经 过 这 个 细微 的 改动 ,'/ 八 *[^*]*\*/j 变 成 了 更 容易 看 懂 的 /x[^x]*x/1。 这 个 表达 式 会 随 着 
我 们 的 讲解 变 得 越 来 越 复杂 ， 到 时 你 会 发 现 这 个 改动 的 价值 。 


直接 的 办 法 


在 第 5 章 (196)， 我 给 出 了 匹配 分 隔 符 之 内 文本 的 公式 : 
L. 匹配 起 始 分 隔 符 ， 

2. 匹配 正文 : 匹配 “ 除 结束 分 隔 符 之 外 的 任何 字符 ”， 

3. 匹配 结束 分 隔 符 。 


现在 我 们 的 程序 以 /x 和 x/ 作 为 开始 和 结束 分 隔 符 ， 它 似乎 很 符合 这 个 模式 。 难 处 在 于 匹配 
“ 除 结束 分 隔 符 之 外 的 任何 字符 ”。 如果 结束 分 隔 符 是 单个 字符 , 我 们 可 以 用 排除 型 字符 组 。 
但 字符 组 不 能 用 来 进行 多 字符 匹配 ， 不 过 如 果 能 使 用 否定 型 顺序 环视 ， 我 们 就 能 使 用 
“(?: (?!x/) .)*/。 这 就 是 ' 除 结束 分 隔 符 之 外 的 任何 字符 ,。 


于 是 我 们 得 到 /x(?:(?!x/) .)*x/1。 它 没有 问题 ， 但 速度 很 慢 (在 我 做 的 一 些 测试 中 ， 速 
度 要 比 下 面 的 表达 式 慢 几 百倍 )。 这 个 思路 很 有 用 ， 但 缺乏 实用 性 ， 因 为 几乎 所 有 支持 顺序 
环视 的 流派 都 支持 忽略 优先 量词 ， 所 以 效率 并 不 是 问题 ， 你 完全 可 以 用 /x.*?x/。 


那么 ， 顺 着 这 种 分 三 步 走 的 思路 ， 是 否 有 其 他 办 法 匹配 第 一 个 x/ 之 前 的 文本 ?能 想到 的 办 
法 有 两 个 。 之 一 是 把 x 作为 开始 分 隔 符 和 结束 分 隔 符 ， 也 就 是 说 ， 匹 配 除 x 之 外 的 任何 字 
符 ， 以 及 之 后 字符 不 为 斜 线 的 x。 这 样 ,“ 除 结束 分 隔 符 之 外 的 任何 字符 ”就 成 了 : 


© 除 x 之 外 的 任何 字符 : [^x]。 
。 ”之 后 字符 不 是 锋线 的 x: x/l 


这 样 得 到 和 ([^x] 1x[^/])* 来 匹配 主体 文本 , /x([^x]1x[^/])*x/1 来 匹配 整个 注释。 我 们 
会 发 现 这 条 路 行 不 通 。 
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另 一 种 办 法 是 ， 把 紧 跟 在 x 之 后 斜 线 当 作 结 束 分 隔 符 。 这 样 “ 除 结束 分 隔 符 之 外 的 任何 字 
符 ” 就 成 了 : 


。 _ 除 斜 线 外 的 任何 字符 :“[^/])。 

° RARE x 之 后 的 斜 线 : x 

于 是 用 (5/115^x]/)* DORE ICA, 7010/1 10x) /) 8x /s DERE TERE. 
不 幸 的 是 ， 这 同样 是 死路 。 


如 果 用 /yx([^x]l lx[^/]1)*x/ 来 匹配 /xx*foo'xx/", {IE ‘foot ZR, 第 一 个 x 由 ieee 
匹配 ， 这 当然 没有 问题 。 但 是 之 后 , “17/4 URE xg/ ， 而 这 个 x 应 该 是 标记 注释 的 结束 。 
于 是 继续 下 一 轮 和 迭代 ，[^x] 匹配 斜 线 ， 结 果 会 匹配 x/ 之 后 的 文本 。 


UVx(E*/1Texly)*x 站 也 不 能 匹配 “/x/foo'yx/ (整个 注释 都 应 该 匹配 ) 。 如 果 注 释 结尾 
后 紧 跟 斜 线 ， 表 达 式 匹配 的 内 容 会 超过 注释 的 结束 分 隔 符 (这 也 是 其 他 解法 的 问题 )。 而 在 
本 例 中 ， 回 潮 可 能 有 些 令 人 迷惑 ， 所 以 读者 最 好 和 弄 明白 /x([*7y]1I*xl7)*x/i Aytt 2. AE Ue 
Ac 


Years = days /x divide x//365, /x assume non-leap year x/ 
i eee 


(可 以 在 空余 时 间 好 好 想 想 这 个 问题 。) 
怎么 办 


让 我 们 来 修正 这 些 表达 式 。 在 第 一 种 情况 下 ， 因 为 疏忽 ，x[^/] 匹配 了 结尾 的 …xx/。 如 果 
我 们 用 /x([^x] 1x#[^/)*x/1。 我 们 认为 ， 添 加 加 号 之 后 ,x+ (0/1 匹配 以 非 斜 线 字符 结 
尾 的 一 连 串 x。 确 实 它 能 够 这 样 匹 配 ， 但 因为 回 滴 “ 斜 线 之 外 的 任意 字符 ”仍然 可 以 是 x, 
首先 , 匹配 优先 的 x+ 匹配 我 们 需要 的 额外 的 x, 但 是 如 果 全 局 匹配 需要 ,回潮 会 逐个 释放 
它们 。 所 以 它 仍 然 会 匹配 过 多 内 容 : 


/XX A xx/ foo() /xx B xx/ 
re OS ee ee 


要 解决 这 个 问题 ， 还 得 回 到 之 前 介绍 的 办 法 :准确 表达 我 们 希望 表达 的 意思 。 如 果 我 们 说 
的 “ 紧 跟 字 符 不 是 斜 线 的 一 些 x” 其 实 就 是 除 x 之 外 的 非 斜 线 字符 ， 就 应 该 用 x+ 1^% 
它 不 会 匹配 “…xxx/"， 一 连 串 x 中 表示 注释 结束 的 那个 x。 事 实 上 ， 它 还 有 个 问题 ， 就 是 
无 法 匹配 注释 结束 之 前 的 任意 多 个 x， 所 以 会 在 “… xxx/” 停 下 来 。 因 为 我 们 预计 结束 分 
隔 符 前 只 有 一 个 x， 所 以 必须 加 入 e 处 理 这 种 情况 。 


于 是 得 到 和 /x((^x] 1x+[^/x])*x+/}， 匹 配 最 终 的 注释 。 


E 
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在 自然 语言 和 正则 表达 式 之 间 翻 译 


第 273 页 讨论 用 来 匹配 C 注释 “ 除 结束 分 隔 桂 之 外 的 任何 字符 ”的 两 种 方法 时 ， 我 提 
到 两 种 办 法 : 

x， 之 后 的 字符 不 是 针线 : x[^/]， 

针线 ， 之 前 的 字符 不 是 x: [^x] 


这 种 做 法 并 不 正式 自然 语言 的 描述 与 正则 表达 式 是 非常 不 同 的 ， 你 发 现 了 吗 ? 
要 看 这 两 者 的 差别 ， 想 象 第 一 个 表达 式 匹 配 字 和 罕 囊 ‘regex HAAL, KEN x 之 后 
LAHR, 但 它 不 能 被 'x[^/]1 匹 配 。 字符 组 必须 匹配 一 个 字符 ,尽管 这 个 字符 不 能 是 


针线 ， 但 它 必须 存在 ， 可 “regex” 中 的 x 之 后 没有 任何 字符 。 第 二 个 表达 式 的 情况 
与 此 类 似 。 当 时 ， 我 们 需要 的 正 是 符合 这 两 个 要 求 的 表达 式 ， 所 以 自然 语言 的 表述 是 
错误 的 。 

如 果 能 使 用 顺序 环视 ,“X,， 之 后 的 字符 不 是 针线 ”可 以 直接 写 做 x?!) RRE, 
就 可 以 使 用 'x([^/]1$)1。 它 仍然 需要 匹配 x 之 后 的 字符 ,但 也 可 以 匹配 字符 事 的 结尾 。 
如 果 能 够 使 用 逆序 环视 ,“ 斜 线 ， 之 前 的 字符 不 是 x” 就 可 以 表示 为 '(?<!1x) /1。 如 果 
不 能 ， 就 需要 使 用 (^1[^x]) /1。 


在 这 个 例子 中 ， 我 们 没有 使 用 上 述 的 任何 一 种 办 法 ， 但 知道 有 这 些 办 法 并 不 是 坏事 。 





这 看 起 来 很 迷惑 ， 对 吗 ? 真正 的 表达 式 (用 * 取 代 x) BRE VCH IV Et Ne, 
这 样 更 复杂 了 ， 更 不 容易 看 懂 ， 所 以 在 理解 复杂 的 正则 表达 式 时 ， 一 定 要 保持 清醒 的 思维 。 


消除 C 语言 注释 的 循环 


为 了 提高 表达 式 的 效率 , 我 们 必须 消除 这 个 表达 式 的 循环 。 下 一 页 的 表 6-3 给 出 了 我 们 能 够 
“消除 循环 ”的 表达 式 。 


和 子 域 名 的 例子 一 样 ，normal*, 必须 匹配 至 少 一 个 字符 。 子 域名 的 例子 中 是 因为 normal 部 
分 不 能 为 空 。 本 例 中 必须 的 结束 分 隔 符 包含 两 个 字符 。 我 们 确信 ， 任 何以 结束 分 隔 符 的 第 
一 个 字符 结尾 的 任何 normal 序列 ， 只 有 在 紧 跟 字符 不 能 组 成 结束 分 隔 符 的 情况 下 ， 才 会 把 
控制 权 交 给 special 部 分 。 


tH 
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R 6-3: 消除 C 语言 注释 的 循环 


‘opening normal* (special normal*)* closing) 
| 

opening 

special 


所 以 ， 按 照 通 用 的 消除 套路 ， 我 们 得 到 |: 
‘Jx[^x]*x+( PAR) [^x] *x+)*/) 


请 注意 ,标注 的 位 置 。 正 则 引擎 可 能 有 两 种 办 法 到 达 此 处 (267 页 的 表达 式 也 是 如 此 )。 第 一 
个 是 在 开头 的 /x[^x]*x+! 匹 配 之 后 直接 前 进 到 此 处 ， 第 二 是 在 (…) * 循 环 的 某 一 轮 中 。 无 
论 哪 种 情况 ， 只 要 到 达 此 处 ， 我 们 就 知道 已 经 匹配 了 x， 到达 关 键 位 置 (pivotal point), «J 
已 经 进入 了 注释 的 结尾 分 隔 符 。 如 果 下 面 的 字符 是 斜 线 , 则 匹配 完成 。 如 果 是 其 他 字符 ( 当 
然 不 是 x)， 我 们 知道 之 前 的 判断 是 错误 的 ， 然 后 回 到 normal 部 分 ， 等 待 下 一 个 x。 找 到 之 
后 我 们 再 一 次 回 到 标记 位 置 。 





回 到 现实 
/x[^x]*x+([^/x] [^x]*x+)*/1 还 不 能 直接 拿 来 用 。 首 先 ， 注 释 是 /*…*/ 而 不 是 /x…x/。 
当然 ， 我 们 可 以 很 容易 地 把 每 个 x 替换 为 x (字符 组 中 的 x 替换 为 *): 

Tj 人] RVR [5*4] [48] *\ te Oy 


实际 情况 中 ， 注 释 通 常会 包括 多 行 。 如 果 匹 配 的 注释 包括 多 行 ， 这 个 表达 式 也 应 该 能 够 应 
付 。 如 果 是 严格 以 行为 处 理 单位 的 工具 ， 例 如 egrep， 当 然 没 办 法 用 一 个 正则 表达 式 匹 配 所 
”有 的 行 。 对 本 书 中 提 到 的 大 多 数 工 具 ， 我 们 的 确 可 以 用 这 个 表达 式 来 匹配 多 行 ， 删 除 它们 。 


在 实际 中 ,会 遇 到 许多 问题 。 这 个 正则 表达 式 能 够 识别 C 的 注释 ， 但 不 能 识别 C 语法 的 其 
他 重要 方面 。 例 如 ， 划 线 的 部 分 尽管 不 是 注释 ， 也 能 够 匹配 : 


const char *cetart = "/**"; *cend. = **/* 
(te et 


我 们 会 在 下 一 节 接 着 讨论 这 个 例子 。 
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The Freeflowing Regex 
我 们 花 了 不 少时 间 来 构建 匹配 C 的 注释 的 正则 表达 式 ， 但 是 没有 考虑 如 何 避 免 字 符 串 中 的 
错误 匹配 。 使 用 Perl 的 话 ， 你 可 能 会 想到 用 下 面 的 程序 过 滤 注 释 : 

Sprog =~ B{/A\*[^*]*\*+ (22 [~^/*] [^*]*\*+)*/}{}g; # 去 挤 C 语言 注释 (但 有 错误 !) 


表达 式 中 ， 变 量 $prog 保存 的 文本 会 被 删除 (也 就 是 ， 被 空 文本 替换 掉 )。 问 题 在 于 ， 如 果 
在 字符 串 内 部 找到 注释 的 起 始 标记 ， 正 则 表达 式 的 匹配 也 不 会 停止 ， 比 如 这 段 C 代码 : 


char *CommentStart = "/*"; /* start of comment */ 
char *CommentEnd = "*/"; /* end of comment */ 
WE CEE 


这 里 ， 下 画 线 标注 的 部 分 是 正则 表达 式 的 匹配 结果 ， 但 是 粗 体 标注 的 部 分 才 是 我 们 期 望 的 。 
引擎 寻找 匹配 时 会 在 目标 字符 串 的 每 个 位 置 开始 尝试 匹配 表达 式 。 因 为 这 种 尝试 只 有 在 注 
释 开 始 的 地 方 (或 者 是 看 起 来 有 可 能 开始 的 地 方 ) 成 功 ， 所 以 在 大 部 分 位 置 都 无 法 匹配 ， 
传动 装置 的 驱动 过 程 继 续 向 前 ， 进 入 双 引 号 字符 串 ， 其 内 容 似乎 是 注释 的 开始 。 最 好 是 能 
够 告诉 正则 引擎 ， 遇 见 双 引 号 字符 串 时 是 应 该 尝试 匹配 还 是 直接 跳 过 。 当 然 ， 我 们 确实 能 
做 到 这 一 点 。 


A Helping Hand to Guide the Match 

看 下 面 的 程序 ; 
SCOMMENT = gr{/\*(**]*\*+(2:(*/*] (**] *\*4) */}; # 匹配 注释 
SDOUBLE = gr{"(?:\\.1[*\\"])*"}; # 匹配 双 引 号 字符 事 


Stext =~ s/SDOUBLE|SCOMMENT//g; 


这 里 出 现 了 两 件 新 事物 。 其 中 之 一 是 表达 式 '$SpoUBLE1sScoMMENTI， 它 由 两 个 变量 组 成 ， 都 
使 用 了 Perl 特有 的 ar/…/ 正 则 表达 式 “ 双 引号 字符 串 ” 操 作 符 。 我 们 曾 在 第 3 章 仔细 讨论 
$ (7101), 如 果 用 字符 串 表 示 正 则 表达 式 , 使 用 字符 串 的 时 候 必 须 格 外 小 心 。Perl 提供 的 
qr/…/ 运 算 符 解决 了 这 个 问题 ， 它 会 把 操作 对 象 (operand) 视 为 正则 表达 式 ， 但 不 会 实际 
应 用 它 。 我 们 在 第 2 章 (776) 已 经 看 到 ， 这 样 非常 方便 。 与 m/…/ 和 s/…/…/ 一 样 ， 我 
们 可 以 自己 选择 分 隔 符 (71)， 上 面 使 用 的 是 花 括号 。 


另 一 点 是 通过 用 SpoUBLE 来 匹配 双 引 号 字符 串 。 传 动 装置 驱动 到 spoUuBLE 能 匹配 的 位 置 时 ， 
会 一 次 性 匹配 整个 双 引 号 字符 串 。 这 里 使 用 多 选 分 支 完全 没有 问题 ， 因 为 二 者 之 间 并 没有 
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重 登 。 如 果 我 们 从 左 向 右 扫描 这 个 正则 表达 式 就 会 发 现 ， 应 用 到 字符 串 时 ， 存 在 三 种 可 能 : 
。 ”注释 部 分 能 够 匹配 ， 于 是 一 次 性 匹配 注释 部 分 ， 直 接 到 达 注 释 的 末尾 ， 或 者 … 

。 “ 双 引 号 字符 串 部 分 能 够 匹配 , 于 是 一 次 性 匹配 双 引 号 字符 串 , 直接 到 达 其 结尾 , 或 者 … 
。 ”上 面 两 者 都 不 能 匹配 ， 本 轮 尝 试 失败 。 启 动 驱动 过 程 ， 跳 过 一 个 字符 。 


这 样 ， 正 则 表达 式 永远 不 会 从 双 引 号 字符 串 或 者 注释 内 部 开始 尝试 ， 这 就 是 成 功 的 关键 。 
实际 上 ， 到 目前 为 止 还 不 够 ， 因 为 这 个 表达 式 在 删除 注释 的 同时 也 会 删除 双 引 号 字符 串 ， 
不 过 我 们 只 需要 再 修改 一 小 点 就 可 以 了 。 


SCOMMENT = qr{/\*[**}*\*4(2: [~/*] [~*]*\*+)*/}; # 匹配 注释 
SDOUBLE = ar{"(2:\\.1(*\\")])*"}; # 匹配 双 引 号 字 术 囊 
Stext =~ 8/($DOUBLE) | $COMMENT/$1/g; 

ÙU u LJ 


。 设置 了 捕获 型 括号 ， 如 果 能 够 匹配 双 引 号 字符 串 对 应 的 多 选 分 支 ， 则 $1 会 保存 对 应 的 
内 容 。 如 果 匹 配 通过 注释 多 选 分 支 ，$1 为 空 。 


。 # replacement 的 值 设置 为 $S1。 结 果 就 是 ,如 果 双 引号 字符 串 匹 配 了 ，replacement 就 等 
于 双 引 号 字符 串 一 一 并 没有 发 生 删 除 操作 ， 替 换 不 会 进行 任何 修改 (不 过 存在 伴随 效 
应 ， 即 一 次 性 匹配 这 个 双 引 号 字符 串 ， 直 接 到 达 其 结尾 ， 这 就 是 把 它 放 在 多 选 结 构 首 
位 的 原因 )。 另 一 方面 ， 如 果 匹 配 注释 的 多 选 分 支 能 够 匹配 ，$1 为 空 ， 所 以 会 按照 期 
望 删除 注释 ( 注 8)。 





最 后 我 们 还 必须 小 心 对 付 单 引 号 的 C 常量 ， 例 如 ' \t'。 这 很 容易 一 一 只 需要 在 括号 内 添加 
另外 一 个 多 选 分 支 。 如 果 我 们 希望 去 掉 C++、Java、C# 的 / /的 注释 ， 就 可 以 把 //[^\n]*， 
作为 第 四 个 多 选 分 支 ， 列 在 括号 外 。 


SCOMMENT = qr{/\*(**] *\*4+(2?:[7/*] [^*]*\*+)*/}; # 匹配 注释 


SCOMMENT2 = gr{//[*\n]*}; # 匹配 C++ // 注释 
SDOUBLE = gr{"(?:\\.1[*\\"))*"}; # 匹配 双 引 号 字符 事 
SSINGLE = gr{'(?:\\.1(*'\\])*'}; # 匹配 单 引号 字符 事 


$text =~ 8B/(SDOUBLE1SSINGLE) | S$COMMENT | S$COMMENT2/$1/g; 
Ne Nh 


注 8: 在 Perl 中 ， 如 果 $1 在 匹配 中 不 能 满足 ， 则 会 获得 一 个 特殊 的 “没有 值 ”的 值 “undef”。 
用 作 replacement 时 ，undef 就 会 被 当 作 空 字 符 事 ， 程序 运行 的 结果 如 我 们 所 愿 。 不 过 如 果 
打开 了 Perl 的 警报 功能 (每 个 优秀 的 程序 员 都 应 该 这 么 做 ) ， 这 样 使 用 undef 会 报警 。 为 
避免 这 种 情况 ， 应 该 在 正则 表达 式 之 前 使 用 蝙 译 指示 “no warnings”"， 或 者 使 用 特殊 的 
Perl 替换 符 : 

$text =~ s/(SDOUBLE) | SCOMMENT/defined($1)?$1: ""/ge; 


www.TopSage.com 


流畅 运转 的 表达 式 279 


基本 原理 很 好 展 : 引擎 检查 文本 ， 迅 速 捕获 《如 果 合 适 ， 则 是 删除 ) 这 些 特殊 结果 。 在 我 
的 老 机 器 (配置 大 概 停留 在 1997 年 的 水 平 ) E, Perl 脚本 在 16.4 种 的 时 间 内 去 掉 了 16MB, 
500 000 行 的 测试 文件 中 的 注释 。 这 已 经 很 快 了 ， 不 过 我 们 仍然 需要 提高 速度 。 


引导 良好 的 正则 表达 式 速度 很 快 


A Well-Guided Regex is a Fast Regex 


暂停 一 会 儿 ， 我 们 能 够 直接 控制 这 个 正则 引擎 的 运转 ， 进 一 步 提 高 匹配 速度 。 来 考虑 注释 
和 字符 串 之 间 的 普通 C 代码 。 在 每 个 位 置 ， 正 则 引擎 都 必须 尝试 四 个 多 选 分 支 ， 才 能 确认 
是 否 能 匹配 ， 只 有 四 个 多 选 分 支 都 匹配 失败 ， 它 才 会 前 进 到 下 一 个 位 置 ， 这 些 复杂 工作 其 
实 是 不 必要 的 。 


我 们 知道 ， 如 果 其 中 任何 一 个 多 选 分 支 有 机 会 匹配 ， 开 头 的 字符 都 必须 是 斜 线 、 单 引号 或 
是 双 引 号 。 这 些 字符 并 不 能 保证 能 够 匹配 ， 但 是 不 满足 这 些 条 件 绝对 不 能 匹配 。 所 以 ， 与 
其 让 引擎 缓慢 而 痛苦 地 认识 到 这 一 点 ， 不 如 把 [^…"/], 作 为 多 选 分 支 ， 直 接 告诉 引擎 。 实 
际 上 ， 同 一 行 中 任何 数量 的 此 类 字符 都 能 归 为 一 个 单元 ， 所 以 我 们 使 用 +. WRR 
记得 无 休止 匹配 ， 可 能 会 为 添加 的 加 号 担心 。 确 实 ， 如 果 在 某 种 (…)* 循 环 中 ， 它 可 能 是 很 
大 的 问题 ， 但 是 在 这 个 例子 中 ， 它 完全 没有 问题 (之 后 没有 元 素 强 迫 它 回 湖 ) ， 所 以 ， 添 加 : 


SOTHER = qr{[*"'/]}; E 可 能 作为 某 个 多 选 结构 开头 的 字 桂 


noes 


$text =~ 8/ (S$DOUBLE|SSINGLE|SOTHER+) |$COMMENT| $COMMENT2/$1/g; 
A 


出 于 某 些 我 们 即将 要 看 到 的 原因 , 我 把 加 号 量词 放 在 SorHER 之 后 , 而 不 是 SorHER 的 内 容 之 
中 。 


我 重新 进行 了 性 能 测试 ， 出 乎 意料 的 是 ， 这 样 可 以 减少 75% 的 时 间 。 通 过 改进 ， 这 个 表达 
式 节 省 了 频繁 尝试 所 有 多 选 分 支 的 大 部 分 时 间 。 仍 然 有 些 情 况 ， 所 有 多 选 分 支 都 不 能 匹配 
(例如 “c,/3.14")， 此 时 ， 我 们 只 能 接受 驱动 过 程 。 


不 过 ， 事 情 还 没有 结束 ， 我 们 仍然 可 以 让 表达 式 更 快 : 


。 ”在 大 多 数 情况 下 ， 最 常用 的 多 选 分支 可 能 是 SoTHER+:， 所 以 我 们 把 它 排 在 第 一 位 。 
POSIX NFA 没有 这 个 问题 ， 因 为 它 总 会 检查 所 有 的 多 选 分 支 ， 但 是 对 于 传统 型 NFA， 
它 只 要 找到 匹配 就 会 停止 ， 为 什么 不 把 最 可 能 出 现 的 多 选 分 支 放 在 第 一 位 呢 ? 


if 
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© ”一 个 引用 字符 串 匹配 之 后 ， 在 其 他 字符 串 和 注释 匹配 之 前 ， 很 可 能 出 现 的 就 是 SOTYHER 
的 匹配 。 若 在 每 个 元 素 之 后 都 添加 '$oTHER*!， 就 能 够 告诉 引擎 下 面 必须 匹配 SOTHER， 
而 不 用 马上 进入 下 一 轮 /g 循环 。 


这 与 消除 循环 的 技巧 是 很 相似 的 ， 此 技巧 之 所 以 能 提高 速度 ， 是 因为 它 主导 了 正则 引 
擎 的 匹配 。 这 里 我 们 使 用 了 关于 全 局 匹配 的 知识 来 进行 局 部 优化 ， 给 引擎 提供 快速 运 
转 必须 的 条 件 。 


非常 重要 是 , '$oTHER*, 是 加 在 每 个 匹配 引用 字符 串 的 子 表达 式 之 后 的 ， 而 之 前 的 
SOTHER ( 排 在 多 选 结构 最 前 面 的 ) 必须 用 加 号 量词 。 如 果 你 不 清楚 原因 ， 请 考虑 下 面 
的 情况 : 添加 的 是 SoTHER+ ， 而 某 行 中 有 两 个 连 在 一 起 的 双 引 号 字符 种 。 同 样 ， 如 果 
开头 的 soTHER 使 用 星 号 量词 ， 则 任何 情况 都 能 匹配 。 


最 终 得 到 : 


' (SOTHER+ | $SDOUBLESOTHER* | $SINGLESOTHER*) | $COMMENT | SCOMMENT2 
这 个 表达 式 能 把 时 间 再 减少 5%。 


回 过 头 来 想 想 最 后 两 个 改动 。 如 果 每 个 添加 的 SoTHER* 匹 配 了 过 多 的 内 容 ， 开 头 的 SoTHER+ 
(我 们 将 其 作为 第 一 个 多 选 分 支 ) 只 有 两 种 情况 下 能 够 匹配 : 1) 它 匹 配 的 文本 在 整个 s/… 
/…/g 的 开头 ， 此 时 还 轮 不 到 引用 字符 串 的 匹配 ; 2) 在 任意 一 段 注释 之 后 。 


你 可 能 会 想 “ 从 第 二 点 考虑 ， 我 们 不 妨 在 注释 后 添加 $oTHER+”。 这 很 不 错 ， 只 是 我 们 希望 
用 第 一 对 插 号 内 的 表达 式 匹 配 所 有 希望 保留 的 文本 一 一 不 要 把 孩子 连 洗澡 水 一 起 倒 掉 。 


那么 ， 如果 $OTHER+ 出 现在 注释 之 后 ,我 们 是 否 需 要 把 它 放 在 开头 呢 ? 我 觉得 , 这 取决 于 所 
应 用 的 数据 一 一 如 果 注 释 比 引 用 字符 串 更 多 ， 答 案 就 是 肯定 的 ， 把 它 放 在 第 一 位 有 意义 。 
否则 ， 我 就 会 把 它 放 后 面 。 从 测试 数据 来 看 ， 把 它 放 在 前 面 的 效果 更 好 。 排 在 后 面 大 约会 
损失 最 后 的 修改 一 半 的 效率 。 
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ry 
cL 
Wrapup 


事情 还 设 有 结束 。 不 要 忘记 ， 每 个 匹配 引号 字符 串 的 子 表达 式 都 应 该 消除 循环 ， 本 章 已 经 
花 了 很 长 的 篇 幅 讲解 这 个 问题 。 所 以 ， 最 后 我 们 要 把 这 两 个 子 表达 式 替 换 为 : 

SDOUBLE = qr{"[^\\"]*(2:\\. [^\\"]*)*")}); 

SSINGLE = 人 
这 样 修改 节省 了 15 有 的 时 间 。 这 些 细小 的 修改 把 匹配 的 时 间 从 16.4 秒 缩短 到 2.3 PH, HEF 
T 7%. 


最 后 的 修改 还 说 明 ， 用 变量 来 构建 正则 表达 式 多 么 方便 。$DOUBLE 可 以 作为 单独 的 元 素 独 
立 出 来 ， 可 以 改变 ， 而 不 需要 修改 整个 正则 表达 式 。 虽 然 还 会 存在 一 些 整体 性 问题 (包括 
捕获 文本 括号 的 计数 )， 但 这 个 技巧 确实 很 方便 。 


这 种 便利 是 由 Perl 的 sr/…/ 操 作 符 提供 的 ， 它 表示 与 正则 表达 式 相关 的 “字符 串 "。 其 他 
语言 没有 提供 相同 的 功能 ， 但 是 大 多 数 语言 提供 了 便于 构建 正则 表达 式 的 字符 串 。 请 参见 
101 页 的 “作为 正则 表达 式 的 字符 串 ”。 


下 面 是 原始 的 正则 表达 式 ， 看 到 它 ， 你 肯定 会 觉得 上 面 的 办 法 非常 方便 。 为 了 便于 印刷 ， 
我 把 它 分 为 两 行 : 


人 
A dd i ed a r Sl eh i fad NAAU] 


总 结 :开动 你 的 大 脑 


In Summary: Think! 


在 本 章 的 结尾 讲 个 故事 ， 我 希望 读者 能 够 明白 ， 在 NFA 中 使 用 正则 表达 式 时 ， 稍 微 动 动脑 
筋 能 带 来 多 大 的 收益 。 在 使 用 GNU Emacs 时 ， 我 希望 用 一 个 正则 表达 式 来 找 出 某 种 类 型 的 
缩写 ， 例 如 “dont  、“Tm” 和 “we'l ”之 类 ， 同 时 必须 忽略 与 单词 邻接 的 单 引 号 。 我 想 用 
<\w+1 来 匹配 单词 ， 然 后 是 …( [tdam] 1rel111ve);。 这 办 法 没有 问题 ， 但 是 我 意识 到 ， 使 
用 、\<\w+, 是 思春 的 ， 因 为 这 里 只 用 到 \w。 你 看 到 了 ， 如 果 撤 号 之 前 就 是 一 个 \w，\w+ 显 然 
也 能 够 匹配 ， 所 以 这 个 正则 表达 式 检查 并 没有 增加 新 的 信息 ， 除 非 我 希望 得 到 匹配 的 文本 
(在 这 里 并 不 需要 , 我 们 只 需要 找到 这 个 位 置 ) 。 单独 使 用 \w 的 正则 表达 式 的 速度 是 原来 的 
10 倍 。 


正 因 如 此 ， 一 点 点 的 思考 就 可 以 带 来 巨大 的 收获 。 我 希望 本 章 能 够 引发 你 的 这 点 思考 。 
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第 章 


Perl 


Perl 


Perl 在 本 书 中 的 分 量 很 重 ， 这 样 安排 有 充分 的 理由 。Perl 很 流行 ， 提 供 的 正则 表达 式 特性 很 
丰富 , 容易 下 载 到 , 也 很 容易 入 门 , 而且 在 Windows, Unix 和 Mac 等 各 种 平台 上 都 有 提供 。 


Perl 的 某 些 程序 结构 看 上 去 类 似 C 和 其 他 传统 编程 语言 , 但 也 只 是 看 上 去 像 而 已 。 Perl 解决 
问题 的 方式 一 一 Perl 之 道 (The Perl Way) 一 一 是 不 同 于 传统 语言 的 。Perl 程序 的 设计 通常 
使 用 传统 的 结构 化 和 面向 对 象 的 概念 ， 但 是 数据 处 理 通 常 严重 依赖 正则 表达 式 。 我 认为 完 
全 可 以 这 么 说 : EMSS Epa RS eT eM. 无 论 这 个 程序 是 100 000 行 ， 


还 是 一 行 : in ay 4 A 
% perl -pi -e ‘st{ (friard. Mee. "%.0fC", ($1-32) *5/9}eg’ *.txt 


ae ee 
过 个 程序 检 查 所 有 的 SE, W PRR (PR 和 2 开关 的 


例子 吗 )。 
本 章 内 容 


本 章 讲解 Perl penatan 

的 运算 符 。 本 章 从 基础 开始 
果 你 看 过 第 2, BARE 
会 费 工夫 来 讲解 语 
助 ， 或 者 O'Reilly) Progranthing Pe 










BERAS, MEHENA 
者 对 Perl 有 基本 的 理解 (如 
: & 有 详细 ve 骨节 ， 我 会 一 笔 带 过 ， 也 不 
wy eA Pen 的 文档 会 很 有 


ig 1: 本 书 涵盖 Perl Version 5.8.5, 
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即使 你 目前 对 Perl 还 不 够 于 解 也 在 要 紧 , 重 要 的 是 委 有 进一步 学 习 的 欲望 。 从 任何 方面 来 
说 ， 阅 读本 章 都 不 是 件 轻松 的 事情 。 我 的 目的 不 是 田 读 者 大 省 ， 而 是 教 给 读者 其 他 Perl 的 
书 中 没 提 供 的 有 用 知识 ;为 了 保持 本 章 内 容 的 整体 性 和 连贯 性 ， 我 不 会 忽略 一 些 重要 的 细 
节 。 某 些 问 题 很 复杂 ， 细 闻 很 多 ， 如 果 不 能 马上 理解 也 不 必 担 心 。 我 推荐 读者 第 一 遍 阅 读 
时 只 要 了 解 全 面 的 图 景 ,需要 的 时 候 再 返 过 来 查阅 。 


下 面 列 出 了 本 章 的 结构 作为 指导 : 


© “Perl 的 正则 流派 ”( 了 286) 考察 了 Perl 的 正则 表达 式 提供 的 丰富 的 元 字符 ， 以 及 正 
则 文字 提供 的 附加 特性 。 


° “正则 相关 的 Perl 教义 (Perlism)” (7293) 考察 了 在 Perl 中 使 用 正则 表达 式 的 一 些 
重要 问题 。 详 细 介 绍 了 “动态 作用 域 (dynamic scoping)” 和 “表达 式 应 用 场合 (expression 
context)”， 并 解释 了 它们 与 正则 表达 式 之 间 的 紧密 联系 。 


。 ”正则 表达 式 必 须 与 应 用 方式 结合 起 来 才 有 价值 ， 所 以 下 面 各 节 讲 解 了 Perl 中 神奇 的 正 
则 表达 式 控制 结构 : 


qr/…/ 运 算 符 和 Regex 对 象 (7303) 
Match jz BFF (7306) 

Substitution 运算 符 (7318) 

Split 运算 符 (7321) 


e “HH Pel HEARE (7326) 介绍 了 Perl 独 具 的 正则 改良 功能 ， 包 括 在 正则 表达 
式 的 应 用 过 程 中 执行 任意 Perl 代码 的 功能 。 


e “Perl 的 效率 问题 ”《=347) 详细 讲解 了 每 个 Perl 程序 员 关 注 的 问题 。Perl 使 用 传统 
型 NFA 引擎 ， 所 以 我 们 可 以 充分 利用 第 6 章 介 绍 的 各 种 技巧 。 当 然 , 还 有 一 些 专属 于 
Perl 的 问题 会 强烈 地 影响 到 Perl 应 用 正则 表达 式 的 方式 和 速度 。 这 些 都 会 有 所 涉及 。 


前 几 音 出 现 的 Perl 
本 书 的 大 部 分 内 容 中 都 出 现 过 Perl: 
。 第 2 章 包括 Perl 的 入 门 知识 ， 给 了 许多 例子 。 


。 第 3 章 介绍 了 Per 的 历史 (788), H Pel 语言 介绍 了 许多 应 用 正则 表达 式 的 问题 ， 
例如 字符 编码 (包括 Unicode 105)、 匹 配 模式 (110)， 以 及 元 字符 (7113), 
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。 第 4 章 解密 了 Perl 使 用 的 传统 型 NFA 引擎 。 对 Perl 用 户 来 说 这 一 章 非 常 重要 。 


。 第 5 章 承接 第 4 章 , 包含 许多 讨论 过 的 例子 。 其 中 许多 是 以 Perl 给 出 的 ,即使 有 些 例 
子 不 是 以 Perl 给 出 的 ， 它 们 的 原理 也 适用 于 Perl。 


。 第 6 章 对 效率 感 兴 趣 的 Perl 程序 员 应 该 仔细 阅读 。 


为 了 照顾 不 熟悉 Perl 的 读者 ， 前 几 章 我 都 简化 了 Perl 的 例子 ， 使 用 容易 看 懂 的 伪 码 。 本 章 
我 会 使 用 Perl 风格 的 代码 来 举例 。 


作为 语言 组 件 的 正则 表达 式 


Regular Expressions as a Language Component 


Perl a 5| ATER MRE ZS RE. 正则 表达 式 在 语言 之 中 支持 完美 地 内 建 。Perl 没有 提供 
独立 的 正则 表达 式 应 用 函数 ， 它 的 正则 表达 式 的 运算 符 ， 包 含 在 构成 语言 的 其 他 丰富 的 运 
算 符 和 结构 之 中 。 


Perl 具有 强大 的 运用 正则 表达 式 的 能 力 ， 人 们 可 能 认为 ， 这 需要 数量 繁多 的 运算 符 ， 但 是 ， 
Perl 事实 上 只 提供 了 四 个 与 正则 表达 式 有 关 的 运算 符 ， 以 及 少量 的 相关 元 素 ( 见 表 7-1)。 


表 7-1: Perl 中 与 正则 表达 式 相 关 的 对 象 概览 


|a 
E Wl 达 式 
res bl see 


sa /repext mads (#306) 
s/regex/replacement/mods (7318) 
ar/regex/mods (7303) 







; 含义 E PE dt * man's 


正则 表达 式 的 解释 方式 (7292, 348) 
引 学 认定 的 目标 字符 囊 (7292) 
其 他 (7311, 315, 319) 






SPAS *) (7321) 
ce fe 5 +E == pe 有 = 
篇 译 指示 (Pragma) | 匹配 完成 之 后 的 变量 (729) 
use charnames ‘:full’; (“290)| $1'52 ARULA 
use overload; (7341) SN $+ 编号 最 小 /最 大 的 $1 、$2… 
@- @+ 二 目标 
use re 'eval'; (7337) 表示 目标 字符 串 中 


use re ‘debug'; (9361) S $S& $' 匹配 之 前 、 之 中 和 之 后 的 偏 移 值 数组 (最 好 不 
Al, 参见 eid St a Ë ae 


z . = Ss FRRRT TY c Y FEN r . P ee R 
TR: EP De eel SR, A x ee ty Mys % O pop ot LIE 
£ PN 276, - ASE ay = g nt H Px 5 x Bue ver A ge” tn is fi Tne 

= SEP. ! a PL SOAR hn bey se a PO A Regis 


le lefirst uc ucfirst (9290) 


pos (7313) quotemeta (7290) 
reset (7308) study (7359) eR nates (7302) 








www.TopSage.com 


286 第 7H. Perl 


Perl MAREE BAK, (ERHARD, RHAALAK. 


Perl 的 长 处 


Perl’ s Greatest Strength 


Perl 最 大 的 优势 可 能 在 于 ，Perl 的 运算 符 和 函数 提供 了 丰富 的 选项 。 根 据 应 用 场合 的 不 同 ， 
它们 的 行为 也 不 同 ， 当 然 ， 这 通常 是 执行 者 在 那 种 场合 自然 想到 的 操作 。0O'Reilly 的 
Programming Perl 说 得 很 绝对 :“ 总 的 来 说 ，Perl 的 运算 符 可 以 做 你 希望 的 任何 事情 …… 。 
正则 匹配 运算 符 m/regex/ 提 供 了 许多 神奇 的 功能 ， 会 根据 应 用 的 场合 、 方 式 以 及 修饰 符 的 
不 同 而 变化 。 


Perl 的 短处 


Perl  s Greatest Weakness 


表达 能 力 太 强 ， 也 是 Perl 最 大 的 毛病 之 一 。 哪 怕 只 是 进行 极 小 的 修改 ， 也 有 数 不 清 的 特殊 
情况 、 条 件 和 场合 在 你 眼皮 底下 发 生变 化 ， 但 却 不 会 通知 你 一 一 不 经 意 之 间 就 切换 到 另 一 
种 应 用 场合 ( 注 2)。 在 Programming Perl 这 本 书 中 ， 上 面 那 句 话 的 下 半 句 是 “只 是 缺乏 一 
致 性 (consistency)”。 当 然 ， 对 计算 机 科学 来 说 ， 固 定 、 一 致 而 值得 依赖 的 接口 是 可 取 的 。 
Perl 的 强大 功能 在 有 经 验 的 用 户 手 里 可 能 是 强大 的 武器 ， 但 情况 似乎 是 ， 你 的 Perl 技能 不 
断 增 长 ， 是 以 不 断 地 射 伤 自己 的 月 闭 为 代价 的 。 


Perl 的 正则 流派 


Perl’ s Regex Flavor 





下 一 页 的 表 7-2 概要 描述 Perl 的 正则 风格 。 以 前 ，Perl 的 许多 元 字符 是 其 他 系统 不 支持 的 ， 
但 是 经 过 许多 年 之 后 ， 其 他 系统 接受 了 许多 Perl 的 创新 。 这 些 常 见 的 特性 在 第 3 章 的 概览 
里 有 描述 ， 但 是 Perl 还 有 专属 于 自己 的 元 素 ， 会 在 本 章 后 面 讲解 ( 表 7-2 覆盖 了 将 要 讲解 
的 各 个 元 素 ) 


下 面 是 对 表格 的 补充 ， 
O \b 只 有 在 字符 组 内 部 才 是 退 格 符 的 简 记 法 。 在 字符 组 外 部 ,\b 表 示 单 词 分 界 符 (了 133)。 
八进制 转 义 接收 2 到 3 位 的 数值 。 


N xnum 十 六 进 制 转 义 接收 两 位 数字 (也 可 以 是 一 位 数字 , 但 是 会 报警 )。"\x (num) AE 
接收 任意 长 度 的 十 六 进 制 数 。 


注 2; 虽然 应 用 场合 的 数目 很 多 ， 但 我 还 是 希望 在 本 章 涵 盖 所 有 内 容 。 


L 
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表 7-2: Perl 的 正则 流派 概览 





= , ; A :4 aoa 
115 (c) | \a IND) \e \£ \n ir \t \octal — x Nether} \echar 
7118 字符 组 ; [ero] [Acer] (7 Me 46 £40 POSIX #4 [salphe: Tey 7127) 
#119 除 换行 符 外 的 所 有 字符 : 点 号 (使 用 /s 时 能 匹配 所 有 字符 ) 
7120 Unicode 组 合 字 符 序 列 :\ 
#120 单个 字 节 (有 危险 ) : \C 


#120 (c) 字符 组 缩 略 表示 法 2 \w \d \s W \D \S 
#121 (c) Unicode 属性 ， 字 母 表 和 区 块 ”: \p{Prop} \P{Prop} 











7129 行 /字符 囊 起 始 位置 : ^ \R 

F129 行 /字符 事 结 束 位 置 : $ \z z 

#315 前 一 次 匹配 的 结束 位 置 : \G 

F133 st \b \B 

F133 环视 5，(?=…) (?!…) (?<=…) (Pele 


aie ees 人 
py reer 的 和 是 。 smi (7-292) 
oe gus (?mods-mods : - 


注释 : (PH 全 ror # Fih, ts vada 
i pn : sees wig a S nE suf" cake SEES, P E 












+137 — (en) NL \2.. 

137 仅 用 于 分 组 的 括号 : (? 

#139 固化 分 组 : (?>…) 

F139 多 选 结 构 : | 

F140 条 件 判 断 : (?ifthenlelse) 一 一 if 部 分 可 以 为 内 性 代码 、 了 环视， 或 是 (num) 
F141 匹配 优先 量词 : * + ? {n} {n,} {x,y} 

F141 忽略 优先 量词 : *? +? ?? {n}? {n,}? {x,y}? 

F327 AKRA: (?{…)}) 






RELAX: (PPC D 
7 3 5 bess aie Se Act pe E R nae i . ee f 
变量 插值 : Pear 









T289 (c) 


#290 (c) 大 小 写 转换 : \1 \u 
7290 (c) K)PSMREM: U \D NE 
#290 (c) 文字 文本 范围 : \Q…\E 


7290 (c) 命名 的 Unicode 字符 : \N{name} 一 一 可 选 出 现 ， 参 见 第 290 页 
(c) 表示 可 以 在 字符 组 内 部 使 用 O-O, ELIRAS 
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© \w、\d、\s 之 类 完全 支持 Unicode, 
Perl 的 \s 不 能 匹配 ASCI 的 垂直 制 表 符 (97115), 
G Perl 的 Unicode 支持 针对 的 是 Unicode Version 4.1.0, 


Unicode 字母 表 也 能 支持 。 字 母 表 和 属性 名 可 以 有 “Is” 前 级 ， 但 并 非 必 须 (9125), 
区 块 名 可 以 有 “In” 前 级 ,但 只 有 在 区 块 和 字母 表 的 名 字 发 生 溃 突 时 才 必 须 使 用 。 


Perl W ## '\p(L&}s, '\p{Any}i, ‘\p{Al1}, '\p{Assigned}s #il'\p (unassigned), RYE, 


Perl 支持 例如 “\p{Lettezr)) 的 长 属性 名 。 名 字 的 各 个 单词 之 间 可 能 是 空格 、 下 画 线 ， 
或 者 什么 也 没有 ，( 例 如 发 p{Lowercase_Letter}j， 也 可 能 写作 ' \p{Lowercase 
Letter})) ZÆ \p{Lowercase'Letter}:), 为 了 前 后 一 致 ， 我 推荐 使 用 第 123 页 表 
格 中 的 长 命名 。 


Apine SOF VPC 
© 单词 分 界 符 完全 支持 Unicode, 
© 顺序 环视 可 能 包含 捕获 型 括号 。 
逆序 环视 中 的 子 表达 式 必须 匹配 固定 长 度 的 文本 。 


© /x 修饰 符 只 能 识别 ASCI 空白 字符 。/m 只 对 换行 符 有 影响 ， 而 且 不 是 所 有 的 Unicode 
换行 符 。 


/i 能够 在 Unicode 中 正常 工作 。 


所 有 的 元 字符 并 不 是 生 而 平等 的 。 正则 元 字符 ”没有 得 到 正则 引擎 的 支持 ， 但 Perl 的 正则 
文字 预 处 理 机 制 能 对 付 。 


正则 运算 符 和 正则 文字 


Regex Operands and Regex Literals 


K 7-2 最 下 面 的 条 目标 注 有 “专属 于 正则 文字 ”。 正 则 文字 (regex literal) 就 是 m/regex/ 部 
分 中 的 “regex”， 虽 然 平时 称 其 为 “正则 表达 式 ”,， 但 在 “/” 分 隔 符 之 间 的 部 分 是 有 自己 的 
解析 规则 。 用 Perl 的 行 话 来 说 , 正则 文字 就 是 “表示 正则 含义 的 双 引 号 字符 串 (regex-aware 
double-quoted string)”， 及 处 理 之 后 传递 给 正则 引擎 的 结果 。 正 则 文字 处 理 机 制 提供 了 特殊 
的 功能 来 构建 正则 表达 式 。 


举例 来 说 ， 正 则 文字 提供 了 变量 插值 功能 。 如 果 变 量 Snunm 的 值 是 20， 代 码 m/:. {$num}:/ 
得 到 的 就 是 : . {20} :,。 这 样 可 以 根据 需要 即时 构建 正则 表达 式 。 正 则 文字 的 另 一 功能 是 大 
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小 写 自动 切换 展开 ，\U…\E 可 以 保证 其 中 的 字母 均 为 大 写 。 比 如 ，myabc\Uxyz\E/ 得 到 正 
则 表达 式 'abpcxYzi。 这 个 例子 有 点 做 作 , 如 果 需 要 使 用 'abcxYzi, 应 该 直接 输入 m/abcxY2z/， 
但 是 这 种 功能 结合 变量 插值 就 很 有 用 : 如 果 变 量 sScag 包含 字符 串 “title”， 则 代码 


m{</\UStag\E>} 得 到 '</TITLE>J。 





除 正则 文字 之 外 还 有 什么 呢 ?” 我 们 可 以 把 字符 串 (或 者 任何 表达 式 ) 当 作 正则 运算 元 ， 比 
an: 


$MatchField = "“Subject:"; # #2 FH SRE 


4sMatchField 用 作 =~ 的 运算 元 时 ， 它 的 值 就 被 解释 (interpreted) 为 正则 表达 式 。 这 里 只 
能 “解释 ”普通 的 正则 表达 式 ， 所 以 不 支持 只 作用 于 正则 文字 的 变量 插值 入 Q…\ Ei。 


下 面 的 例子 值得 思考 ， 如 果 把 : 


Stext =~ $MatchField 
BRA: 
Stext =~ m/SMatchField/ 


结果 完全 一 样 。 这 里 的 正则 文字 只 包含 一 个 元 素 一 一 变量 $MatchFie1ld。 正则 文字 中 插值 变 
量 的 值 不 会 被 当 作 正则 文字 处 理 ， 所 以 变量 内 的 \0…\B 和 $var 之 类 不 会 被 识别 (第 292 页 
说 明了 正则 文字 的 处 理 细节 )。 


如 果 正 则 表达 式 在 程序 的 执行 期 间 需要 多 次 用 到 ， 那 么 正则 运算 元 采用 字符 串 或 变量 插值 
的 效率 差距 就 很 明显 。 第 348 页 讨论 了 这 个 问题 。 


正则 文字 支持 的 特性 


正则 文字 提供 下 面 的 特性 : 


。 ”变量 插值 正则 表达 式 中 以 $ 和 e 开 头 的 变量 会 被 替换 为 实际 变量 的 值 。$ 变 量 插入 一 个 
简单 的 纯 量 值 (scalar value)。 以 e 开 头 的 插入 数组 或 者 数组 的 一 部 分 ， 以 空格 分 隔 各 
个 元 素 (其 实 是 以 $" 变 量 作 分 隔 符 ， 它 的 默认 值 是 空格 ) 。 


在 Pen 中 ,，'%s”3 引 入 一 个 散 列 变量 (hash variable), 但 是 在 字符 串 中 插入 -个 散 列 变 
量 并 没有 太 大 的 意义 ， 所 以 Perl 不 支持 插值 。 
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$7: Perl 


命名 的 Unicode 字符 如 果 程 序 中 包含 “usee charnames ' :full';” ,就 可 以 用 \N (name) 
序列 引用 Unicode 字符 。 例 如 ，\N{LATIN SMALL LETTER SHARP S} 匹 配 “&”"。 在 Perl 
的 unicore 目录 下 的 UnicodeData.txt 中 可 以 找到 Perl 支持 的 Unicode 字符 列表 。 下 面 
的 代码 能 够 报告 文件 的 位 置 ， 

use Config; 

print "$Config{privlib} /unicore/UnicodeData.txt\n"; 

“use charnames ':full';” (RAS Eid, RHIC ‘full’ 前面 添加 冒号 ， 果 

真如 此 的 话 ，\N{…} 就 不 能 正常 工作 。 同 样 ， 如 果 使 用 了 下 面 介绍 的 正则 表达 式 重 载 ， 
\N{…} 也 不 能 正常 工作 。 


大 小 写 转换 前 缀 \1 和 \u 能 够 把 后 面 的 字符 转换 为 小 写 或 大 写 形式 。 通 常 我 们 使 用 此 
功能 来 转换 插值 变量 的 第 一 个 字符 。 举 例 来 说 ， 如 果 变 量 $title 包含 “mr.”，m/… 
\ustitle…/ 就 能 生成 正则 表达 式 …Mr .…;。Perl 的 lcfirst (O $l ucfirst O MRE 
供 了 同样 的 功能 。 


大 小 写 转换 范围 \L 和 \u 能 够 把 后 面 所 有 的 字符 转换 为 小 写 或 大 写 ， 其 作用 范围 一 直 
到 表达 式 末 尾 ， 或 是 \B 为 止 。 同 样 是 Stitle，m/…\UsStitle\E…/ 会 产生 正则 表达 式 
LeMR. Je Perl 的 1c() 和 uc() 函 数 提 供 了 同样 的 功能 。 


我 们 可 以 把 这 两 者 结合 起 来 : 无 论 变 量 stitle 采用 怎样 的 字母 组 合 ，m/… 


\L\uStitle\E…/ 都 会 得 到 "Mr .…。 


文字 文本 范围 \Q“ 转 义 (quote)” 正 则 表达 式 元 字符 (也 就 是 在 它们 之 前 放 一 个 反 斜 
线 , 保证 它们 只 作为 普通 的 字符 )， 其 作用 范围 直到 字符 串 的 结尾 ,或 者 直到 \g。 它 能 
转 义 正则 表达 式 元 字符 , 但 不 能 转 义 表示 变量 插值 的 正则 文字 \g, 当然 也 不 能 转 义 \E。 
奇怪 的 是 ， 如 果 反 斜 线 开头 的 字符 序列 不 能 识别 一 一 例如 \F 或 者 \H， 反 斜 线 也 不 会 被 
转 义 。 即 使 是 \Q…\E， 这 样 的 序列 也 会 导致 “unrecognized escape” $t, 


在 实践 中 ， 这 些 限制 并 不 是 严重 的 缺陷 ，\Q…\E 通常 用 于 引用 插值 文本 ， 这 样 就 可 
以 正确 转 义 所 有 的 元 字符 。 例 如 ,如 果 Stitle 包含 “Mr.”, 那么 代码 m/…\Qstit1le\E.… 
/就 会 生成 正则 表达 式 …Mr\.… 我 们 要 的 就 是 这 样 一 -希望 匹配 的 是 $title 中 的 字 
符 ， 而 不 是 $title 中 的 正则 表达 式 。 


如 果 你 希望 在 正则 表达 式 中 包含 某 些 用 户 输入 的 数据 ， 这 非常 有 用 。 举 例 来 说 ， 
m/\Q$UserInput\E/i 能 够 对 SUserInput (作为 字符 串 ， 而 不 是 正则 表达 式 ) 中 的 字 
符 进 行 不 区 分 大 小 写 的 搜索 。 


Perl 的 函数 quotemeta() 提 供 了 与 \Q…\E 等 价 的 功能 。 
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BR EDER, 用户 可 以 使 用 任何 期 望 的 方式 预 处 理 正则 文字 的 文字 字符 。 这 是 概念 
值得 讨论 ， 但 是 目前 的 实现 还 有 诸多 限制 。 关 于 重 载 的 细节 讨论 请 参见 第 341 页 。 


使 用 自己 的 正则 表达 式 分 隔 符 


Perl 语法 中 最 奇妙 (也 是 最 有 用 ) 的 特性 之 一 就 是 用 户 可 以 使 用 自己 的 正则 文字 分 隔 符 。 传 
统 的 分 隔 符 是 斜 线 ， 例 如 m/…/、s/…/…/ 和 qr/…/， 不 过 还 可 以 使 用 除数 字 、 字 母 和 空 
格 之 外 的 字符 。 常 用 的 包括 : 


m! veel mt{"*} 
m,…， Mm<***> 
Sj)'**| .| m[…] 
qare ml('*) 
右边 四 个 是 特殊 的 分 隔 符 : 


右边 的 四 个 例子 具有 不 同 的 开始 -结束 分 隔 符 ， 而且 可 能 幅 套 (也 就 是 说 ， 如 果 开 始 - 
结束 分 隔 符 匹配 恰当 , 表达 式 中 容许 包含 与 分 隔 符 一 样 的 字符 )。 因 为 圆 括 号 和 方 括号 
在 正则 表达 式 中 经 常用 到 ,m(…) 和 m[…] 可 能 不 如 其 他 更 有 吸引 力 ,使 用 /x 修饰 符 时 ， 
可 能 出 现下 面 的 形式 : 
ml{ 
regex # comments 
here # here 
}x; 
也 可 以 使 用 某 种 组 合 标记 regex ， 另 一 组 《如果 你 喜欢 ， 也 可 以 用 同样 的 ) 标记 
replacement。 例 如 : 
S{… beret 
s<> (=) 
S[…] fuse] 
如 果 这 样 做 了 ， 就 可 以 在 两 对 分 隔 符 之 间 插 人 空格 和 注释 。 第 319 页 进一步 讲解 了 
substitution 运算 符 的 replacement 运算 元 。 


对 match 运算 符 来 说 ， 把 问号 作为 分 隔 符 有 其 特殊 价值 (禁止 更 多 的 匹配 ) ， 这 一 点 在 
下 一 节 讲 解 关于 match 运算 符 时 讨论 (7308), 


lil 
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。 288 页 已 经 提 到 ， 正 则 文字 被 解析 成 “表示 正则 含义 的 双 引 号 字符 串 "。 如 果 用 单 引 号 
作 分 隔 符 ， 就 无 法 使 用 这 些 功 能 。 使 用 m'…' 时 就 不 会 进行 变量 插值 ， 实 时 修改 文本 
的 结构 (比如 \Q…\E) 不 会 生效 ，\N{…} 也 无 法 使 用 。 也 许 在 使 用 包含 多 个 8 的 正则 
表达 式 时 m'…' 很 有 价值 ， 因 为 这 样 可 以 不 需要 转 义 。 

如 果 进 行 match 操作 ， 而 分 隔 符 是 斜 线 或 者 问号 ， 可 以 省 略 mn， 也 就 是 : 


$text =~ m/*/; 
$text =~ /*/; 


是 等 价 的 。 但 我 更 喜欢 明确 写 上 m。 
正则 文字 的 解析 方式 
How Regex Literals Are Parsed 


大 多 数 情况 下 ， 如 果 用 户 “ 只 会 用 到 ”上 文 讲解 的 正则 文字 特性 ， 就 不 需要 理解 Perl 将 它 
们 转换 为 真正 的 正则 表达 式 的 具体 细节 。 就 这 一 点 来 说 ，Perl 直观 性 非常 方便 , 但 是 许多 时 
候 ， 了 解 细节 并 无 坏处 。 下 面 列 出 了 各 种 处 理 的 顺序 : 


. 找到 结束 分 隔 符 ， 读 人 修饰 符 〈 例 如 /i 之 类 )。 下 面 的 处 理 就 能 判断 是 否 采用 了 /x 之 类 
的 模式 。 


2. 变量 插值 。 


. 如 果 使 用 了 正则 表达 式 重 载 ， 正 则 文字 的 每 个 部 分 都 会 交 给 重 载 子 程序 来 处 理 。 各 部 分 
由 插值 变量 分 隔 ， 插 入 的 值 是 无 法 重 载 的 。 


如 果 正 则 表达 式 没 有 进行 重 载 ， 处 理 \N{…}。 
4. 应 用 大 小 写 转换 结构 【例如 \Q8…\E)。 
5. 把 结果 提交 给 正则 引擎 。 
以 上 是 程序 员 眼 中 的 处 理 ， 但 是 Perl 内 部 的 处 理 其 实 是 很 复杂 的 。 单 单 是 第 二 步 ， 就 必须 
识别 正则 表达 式 的 元 字符 ， 比 如 不 应 把 chisg1lchacsS 下 画 线 的 那 部 分 识别 为 变量 。 
正则 修饰 符 
Regex Modifiers 


Perl 的 正则 运算 符 容许 在 正则 文字 的 结束 分 隔 符 之 后 添加 正则 修饰 符 (例如 m/… /i、s/…/… 
/和 ar/…/ 计 中 的 1)。 所 有 运算 符 都 支持 的 核心 修饰 符 一 共有 5 种 ， 详 见 表 7-3。 


头 四 种 在 第 3 章 已 经 介绍 过 ， 它 们 能 够 作为 模式 修饰 符 (7135) 或 者 范围 模式 修饰 符 
(7135), 在 正则 表达 式 之 中 使 用 。 如 果 正 则 表达 式 内 部 出 现 了 修饰 符 ，match 运算 符 也 用 


— 


w 


if 
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表 7-3: 所 有 正则 运算 符 可 用 到 的 核心 修饰 符 


/i 7110 进行 忽略 大 小 写 的 匹配 
/x ajll 宽松 排列 和 注释 模式 
/s Fil 点 号 通 配 模式 

/m w 112 增强 的 行 锚 点 模式 

/o F348 仅 编 译 一 次 


到 了 修饰 符 ， 则 正则 表达 式 内 部 的 修饰 符 的 优先 级 更 高 (从 另 一 方面 来 说 就 是 ， 一 旦 修饰 
符 应 用 到 正则 表达 式 内 部 的 某 些 元 素 ， 这 些 元 素 就 不 再 受 其 他 修饰 符 的 影响 )。 


第 五 个 核心 修饰 符 /co， 与 效率 有 很 大 的 关系 。 此 问题 从 第 348 页 开始 讨论 。 


如 果 需 要 使 用 多 个 修饰 符 ， 只 需要 把 它们 并 排列 在 结束 分 隔 符 之 后 即 可 ， 排 列 的 顺序 是 无 
关 紧 要 的 ( 注 3)。 请 注意 , 斜 线 本 身 不 是 修饰 符 , 你 可 以 使 用 m/<title>/i、 mi<title>11， 
或 是 mi<title>}i, BBE m<<title>>i。 不 过 在 讲解 修饰 符 时 ， 通 行 的 做 法 是 加 上 一 个 
wee, Pa “ETFi”. 
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Regex-Related Perlisms 


学 习 正则 表达 式 ， 还 需要 掌握 许多 一 般 的 Perl 概念 。 下 面 几 节 的 内 容 包括 ; 


” ”应 用 场合 (context) Pel 的 重要 概念 之 一 就 是 ， 许 多 函数 和 运算 符 在 不 同 应 用 场合 有 
不 同 的 意义 。 例 如 ，Perl 的 while 循环 希望 接收 一 个 纯 量 值 (scalar value) 作为 判断 
条 件 ， 但 对 于 print 语句 希望 接收 一 组 值 (a list of value)。 因 为 Per 容许 表达 式 对 其 应 
用 场合 进行 “响应 ”(respond) ， 同 样 的 表达 式 在 不 同 的 应 用 场合 可 能 得 到 截然 不 同 的 
结果 。 


* ”动态 作用 域 (dynamic scope) 大 多 数 编程 语言 都 支持 本 地 变量 和 全 局 变量 ， 但 是 Perl 
还 提供 了 另 一 种 复杂 功能 ， 称 为 动态 作用 域 。 动 态 作用 域 会 临时 “保护 ”全 局 变量 ， 
保存 一 份 副本 ， 稍 后 自动 恢复 。 这 个 复杂 的 概念 对 我 们 来 说 很 重要 ， 因 为 它 影响 到 $1 
和 其 他 的 匹配 相关 变量 。 


£3: 因为 修饰 宁可 以 以 任意 形 式 出 现 、 程 序 员 通常 会 花 很 多 精力 调整 修饰 桂 ， 让 它们 看 上 去 最 
顺眼,learn/by/osmosis 是 没 问题 的 (假设 函数 名 是 learn) ,其 中 的 修饰 符 是 osmosis， 
修饰 符 可 以 重复 出 现 ， 但 这 没有 意义 ( 稍 后 讨论 的 替换 运算 竺 的 /e 是 个 例外 ) 。 
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表达 式 应 用 场合 


Expression Context 


context 对 Perl 来 说 是 很 重要 的 概念 ， 尤 其 对 match 运算 符 来 说 更 是 如 此 。 一 个 表达 式 可 能 
出 现在 三 种 context 中 : 序列 (list)、 纯 量 值 (scalar) 或 者 空 (void) ， 它 们 表示 表达 式 期 户 
接收 的 参数 类 型 。 所 以，list context 说 明 表 达 式 期 望 获得 一 个 序列 。scalar context 说 明 表 达 
式 期 望 获得 单个 值 。 以 上 两 者 极为 常见 ， 而 且 对 使 用 正则 表达 式 非常 有 价值 。void context 
说 明 不 期 望 获得 任何 值 。 


看 下 面 两 个 赋值 : 


$s = expression one; 
@a = expression two; 


因为 $s 是 scalar 变量 ( 它 用 来 保存 单个 的 值 ， 而 不 是 序列 )， 期 望 简单 的 纯 量 值 ， 所 以 第 一 
个 表达 式 的 应 用 场合 为 scalar context。 同 样 ， 因 为 ea 是 一 个 数组 ， 期 望 获得 一 个 list， 第 二 
个 表达 式 的 应 用 场合 为 list context。 即 使 这 两 个 表达 式 完全 等 价 ， 也 可 能 返回 完全 不 同 的 结 
果 ， 产 生 不 同 的 影响 。 具 体 情况 依 表 达 式 而 定 。 


举例 来 说 ，localtime 函数 如 果 用 在 list context 中 ， 会 返回 一 组 值 ， 表 示 当 前 年 、 月 、 日 、 
时 。 但 如 果 用 在 scalar context 中 , 则 返回 文本 类 型 的 当前 时 间 , 比如 ‘Mon Jan 20 22:05:15 
2003’, 


另 一 个 例子 是 <MYDATA> 之 类 的 VO 运算 符 ， 在 scalar context 中 ， 它 返回 文件 的 下 一 行 ， 但 
是 在 list context 中 ， 返 回 所 有 ( 剩 下 的 ) 行 。 


BEAR localtime fil VO 运算 符 一样 , 许多 Perl 的 结构 会 根据 应 用 场合 的 不 同 返回 不 同 的 值 ， 
正则 运算 符 同样 如 此 。 拿 match 运算 符 m/…/ 来 说 ， 有 时 候 它 会 简单 地 返回 true/false (A, 
有 时 候 返 回 一 组 匹配 结果 。 所 有 的 细节 都 会 在 本 章 讲 解 。 


强 转正 则 表达 式 


不 是 所 有 的 正则 表达 式 天 生 都 能 区 分 场合 的 ， 所 以 ， 如 果 某 个 应 用 场合 中 正则 表达 式 无 法 
提供 期 望 的 返回 类 型 ， 就 要 按照 Perl 的 规定 处 理 。 为 了 把 方 桩 插入 圆 孔 ，Perl 会 “ 强 转 
(contort)” 这 个 值 。 如 果 在 list context 中 返回 的 是 scalar 值 ，Perl 会 生成 只 包含 单个 元 素 
的 ist。 这样 ea = 42 就 等 于 ea = (42), 
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另 一 方面 ， 把 list HRA scalar 却 没有 统一 的 规定 。 如 果 程 序 是 这 样 : 


Svar = (Sthis, &is, OxA, 'list'); 


逗号 运算 符 返 回 最 后 的 元 素 “1ist" 给 $var。 如 果 给 定 的 是 一 个 数组 , 例如 $var = earray， 
则 返回 数组 的 长 度 。 


其 他 语言 用 不 同 的 术语 描述 这 种 处 理 , 例如 修正 (cast)、 提示 (promote), 强制 转换 (coerce) 
或 转换 (convert) ， 但 是 我 认为 这 些 词 都 已 经 具有 了 自己 的 意义 (有 点 令 人 讨厌 ) ， 不 适合 
描述 Perl 的 做 法 ， 所 以 我 使 用 “ 强 转 (contort)”, 


动态 作用 域 及 正则 匹配 效应 


Dynamic Scope and Regex Match Effects 


Perl 的 变量 分 为 两 类 (全 局 变量 和 私有 变量 ), 动态 作用 域 是 正确 理解 它们 的 重点 , 研究 正 
则 表达 式 时 也 需要 关注 此 概念 ， 因 为 它 关 系 到 匹配 完成 之 后 信息 如 何 使 用 。 下 一 节 介 绍 了 
这 些 概念 及 其 与 正则 表达 式 的 关系 。 


全 局 和 私有 变量 


总 的 来 说 ，Perl 提供 了 两 种 变量 : 全 局 的 和 私有 的 。 私 有 变量 使 用 my (…) 来 声明 ， 全 局 变 
量 不 需要 声明 ， 在 使 用 时 会 自动 出 现 。 全 局 变量 通常 在 程序 的 任何 地 方 都 是 可 见 的 ， 而 私 
有 变量 ， 按 照 语言 的 规定 只 有 在 它们 所 属 的 代码 块 之 内 才 是 可 见 的 。 也 就 是 说 ， 只 有 私有 
变量 声明 所 在 的 代码 块 之 内 的 Perl 代码 ， 能 够 访问 私有 变量 。 


全 局 变量 的 使 用 则 很 普通 ， 只 是 有 的 特殊 变量 不 太 好 理解 ， 例 如 $1、$_、eARGB 之 类 。 普 
通用 户 的 变量 是 全 局 的 ， 除 非 它们 以 my 来 声明 ， 否 则 即使 它们 “看 上 去 ”是 私有 的 ， 也 是 
全 局 变量 。 按 照 Perl HHE, Package Acme: :Widget 中 的 全 局 变量 Spebug， 虽 然 有 完整 
的 限定 名 $Acme: :widget : :Debug， 仍 然 是 一 个 全 局 变量 。 如 果 出 现 了 use strict;, ill 
所 有 (不 包括 特殊 的 ) 全 局 变量 必须 使 用 完整 的 限定 名 ， 或 者 通过 our 来 声明 (our 声明 一 
个 名 称 (name) ， 而 不 是 一 个 新 变量 ， 请 参考 Perl 的 文档 ) 。 


使 用 动态 作用 域 的 值 


动态 作用 域 (dynamic scoping) 是 个 值得 一 提 的 概念 ， 很 少 有 编程 语言 提供 这 种 功能 。 下 文 
会 讲解 它 与 正则 表达 式 的 关系 ， 简 单 地 说 ， 动 态 作 用 域 可 以 让 Perl 保存 全 局 变量 的 一 个 副 
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本 ， 在 某 个 代码 块 中 修改 此 副本 ， 退 出 之 后 自动 恢复 原来 的 值 。 保 存 副 本 的 操作 就 称 为 生 
成 动态 作用 域 (creating a new dynamic scope) ， 或 者 本 地 化 (localizing). 


使 用 动态 作用 域 的 原因 之 一 是 为 了 临时 改变 某 些 保存 在 全 局 变量 中 的 某 些 全 局 状态 。 举 例 
来 说 ，package Acme: :widget 提供 了 一 个 调试 标志 位 (fag)， 我 们 可 以 修改 全 局 变量 
$Acme ::Widget::Debug 来 启用 或 者 停 用 调试 功能 。 下 面 的 代码 可 以 临时 改变 此 标志 位 : 


sses.. 


local($Acme::Widget::Debug) = 1; # 确保 启用 
# 此 时 Acme: :Widget::Debug 已 启用 、 可 以 调试 


# SAcme::Widget::Debug 现在 恢复 到 原来 的 值 


local 函数 的 命名 很 成 问题 ， 但 它 生 成 了 一 个 新 的 动态 作用 域 。 调 用 local 并 没有 创造 新 
ASEM, local 是 行为 ， 而 不 是 声明 。 在 全 局 变量 之 前 ，local 做 了 三 步 处 理 ; 


1. 在 内 部 保存 变量 值 的 副本 ， 
2. 把 新 值 赋予 到 变量 (无 论 是 undef 还 是 传 给 local 的 值 )， 
3. local 代码 块 执行 结束 之 后 ， 把 变量 恢复 到 之 前 的 值 。 


也 就 是 说 ， local” 指 的 是 对 变量 的 修改 的 持续 时 间 。 对 本 地 化 的 变量 来 说 ， 持 续 时 间 就 是 
代码 块 执行 的 时 间 。 如 果 代 码 块 中 调用 了 子 程序 ， 本 地 化 的 值 仍然 保留 毕竟， 变量 仍然 
是 一 个 全 局 变量 )。 它 与 非 本 地 化 的 全 局 变量 的 唯一 区 别 是 ， 在 代码 块 执行 完成 之 后 ， 之 前 
的 值 会 被 恢复 。 


local 对 全 局 变量 的 自动 保存 和 恢复 比 想象 的 要 复杂 。 请 参考 表 7-4 右 侧 , 详细 了 解 背后 的 
处 理 。 


为 方便 起 见 ， 我 们 也 可 以 给 本 地 变量 赋 一 个 值 local ($Ssomevar) ， 这 等 于 把 undef 赋值 给 
$someVar。 如 果 不 使 用 括号 ， 表 示 强 制 使 用 scalar context, 


举 个 实际 的 例子 ,我 们 需要 调用 一 个 写 得 很 精 糕 的 函数 ,而 它 会 产生 许多 “Use of uninitialized 
value” 的 警告 。 优 秀 的 Perl 程序 员 都 会 使 用 Perl 的 -w 选项 来 解决 这 个 问题 , 但 是 库 的 作者 
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表 7-4: local 的 含义 











local ($SomeVar); # save copy my $TempCopy = $SomeVar; 
$SomeVar = undef; 
$SomeVar = 'My Value'; $SomeVar = 'My Value'; 


ssssse K o a 


$SomeVar = $TempCopy; 
} # 自动 恢复 到 之 前 的 值 


显然 没有 。 你 对 这 些 警告 非常 恼火 ， 但 是 如 果 不 能 修改 程序 库 ， 有 什么 其 他 简便 办 法 来 代 
赫 -w 吗 ?这 时 候 可 以 使 用 对 $^w 的 调用 的 local, 即时 关闭 警报 (^w 可 以 表示 为 两 个 字符 ， 
BFF ‘w, RRE ctrl+W )。 
{ 
local $^W = 0; # 确保 关闭 警报 


UnrulyFunction(…) ; 





} 
# 进出 代码 块 ， 把 $^W 恢复 到 原来 的 值 


无 论 全 局 变量 $^W 是 什么 值 ， 调 用 local 保存 都 会 为 其 保存 一 份 内 部 副本 。 然 后 $^w 被 用 户 
置 为 0。 上面 提 到 的 精 糕 程序 在 执行 时 ，Perl 检查 s^w， 发 现 其 值 为 0， 就 不 会 发 出 警报 。 
在 国 数 返 回 时 ， 新 值 0 仍然 有 效 。 


这 样 看 来 ， 不 用 local 的 话 似乎 也 没有 问题 。 不 过 ， 在 子 程序 返回 ， 代 码 块 退出 时 ，s“^w 
会 恢复 到 之 前 的 值 。 这 种 改变 是 本 地 的 、 即 时 的 ， 只 在 代码 块 内 部 生效 。 按 照 表 7-4 右 侧 的 
做 法 ， 用 户 可 以 手工 生成 和 返回 副本 ， 达 到 同样 的 效果 ， 但 是 local 更 为 方便 。 


考虑 在 其 他 情况 下 会 发 生 什 么 ， 比 如 用 my 替代 local ( 注 4), my 会 新 建 一 个 变量 ， 其 初 
始 值 是 undef 。 只 有 在 声明 的 代码 块 中 才 可 见 (也 就 是 说 ， 在 my 和 它 所 在 的 代码 块 结束 之 
间 )。 它 不 会 改变 、 修 改 ， 或 以 其 他 方式 引用 和 影响 其 他 变量 ， 包 括 可 能 存在 的 同样 名 字 的 
全 局 变量 。 新 建 的 变量 在 程序 的 其 他 部 分 都 不 可 见 ， 包 括 在 那个 糟糕 的 程序 内 。 这 样 新 的 
sw 的 确 被 置 为 0， 但 永远 不 会 再 使 用 或 者 引用 ， 所 以 它 完全 是 白费 工夫 (执行 精 糕 的 程序 
时 ，Perl 根据 与 其 无 关 的 全 局 变量 $5^W 决定 是 否 报警 )。 


注 4: Perl 不 容许 对 这 个 特殊 的 变量 名 使 用 my， 所 以 这 种 比较 只 有 理论 意义 。 
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更 好 的 比喻 : 充分 的 透明 度 


可 以 这 样 理解 1ocal ， 它 对 变量 的 修改 是 用 户 完全 无 法 察觉 的 《好像 是 把 新 值 投影 到 原 变 
量 之 上 )。 用 户 (还 包括 能 看 到 的 任何 人 , 例如 子 程序 和 信号 处 理 程序 ) 会 看 到 这 些 新 的 值 。 
在 代码 块 结束 之 前 ，local 的 修改 会 取代 之 前 的 值 。 退 出 之 后 ， 这 种 透明 特性 会 自动 消除 ， 
也 就 是 取消 local 进行 的 所 有 修改 。 


相 比 “保存 一 个 内 部 副本 ”， 这 个 比喻 更 接近 现实 。 使 用 local 并 不 会 生成 一 个 副本 ， 而 是 
在 访问 变量 时 ， 使 用 新 设置 的 值 ( 即 屏蔽 原来 的 值 )。 退 出 代码 块 之 后 会 抛弃 新 设置 的 值 。 
调用 local 时 ， 新 值 是 手动 设置 的 ， 但 我 们 要 讲解 这 些 细节 的 原因 在 于 : 正则 表达 式 的 伴 
随 效应 变量 (side-effect variables) 会 自动 使 用 动态 作用 域 。 


正则 表达 式 的 伴随 效应 和 动态 作用 域 


正则 表达 式 与 动态 作用 域 有 什么 关系 呢 ? 关系 很 大 。 作 为 伴随 效应 ， 许 多 变量 一 一 例如 ss 

(引用 匹配 的 文本 ) 和 $1 (引用 第 一 组 括号 内 表达 式 匹 配 的 文本 ) 会 在 匹配 成 功 时 自 
动 设置 。 在 下 一 节 会 详细 讨论 这 些 问 题 。 在 其 所 处 的 代码 块 中 ， 这 些 变量 都 会 自动 使 用 动 
态 作 用 域 。 





这 种 设计 的 好 处 在 于 ， 每 次 调用 子 程序 都 要 启动 新 的 代码 块 ， 也 就 是 为 这 些 变量 提供 了 新 
的 动态 作用 域 范围 。 因 为 在 代码 块 之 前 的 值 会 在 代码 块 执行 完 之 后 恢复 (也 就 是 子 程序 返 
回 时 )， 子 程序 不 能 改变 调用 方 能 看 到 的 值 。 


来 看 个 例子 : 


if ( m/(…)/ ) 
i DoSomeOtherStuff(); 
print "the matched text was $1.\n"; 
] 
因为 $1 的 值 在 进入 代码 块 时 进行 了 动态 作用 域 处 理 ， 这 段 代 码 不 关心 也 不 必 关 心 ， 函 数 
DoSomeOtherStuff 是 否 改 变 了 $1 的 值 。 此 函数 对 $1 的 任何 改动 都 只 在 函数 定义 的 代码 块 
内 部 ， 或 者 函数 的 子 代 码 块 中 生效 。 所 以 ，DoSomeOtherstuff 不 会 影响 print 接收 的 $1 


的 值 。 


ifl 
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自动 使 用 动态 作用 域 很 有 用 ， 虽 然 有 时 候 不 那么 明显 : 


if ($result =~ IERROR=( .*)/) { 
warn “Hey, tell $Config{perladmin} about $1!\n"; 
} 


标准 库 模 块 config 定义 了 一 个 关联 数组 (associative array) %sconfig， 其 成 员 $config- 
{perladmin} 保 存 本 地 Perlmaster 的 E-mail 地 址 。 如 果 $1 没有 使 用 动态 作用 域 ， 这 段 代 码 
就 很 难 理解 ， 因 为 sconfg 是 一 个 绑 定 变量 (tied variable) 。 也 就 是 说 ， 对 它 的 任何 引用 都 
意味 着 幕后 的 子 程序 调用 ， 用 sconfig{…)} 进 行 正 则 表达 式 匹配 时 ，config 中 的 子 程序 返 
回 对 应 的 值 。 这 次 匹配 发 生 在 上 一 行 的 匹配 和 对 $1 的 使 用 中 间 ， 所 以 如 果 $1 没有 使 用 动态 
作用 域 ， 它 的 值 会 被 修改 。 所 以 ，$config{…} 中 对 $1 的 任何 修改 都 被 动态 作用 域 安全 地 
保护 了 起 来 。 


动态 作用 域 还 是 词法 作用 域 


如 果 使 用 恰当 ， 动 态 作 用 域 能 提供 许多 便利 ， 但 是 滥用 动态 作用 域 会 带 来 无 休止 的 栈 梦 ， 
因为 阅读 程序 的 人 很 难 理解 ， 分 散在 散落 的 1ocal 、 子 程序 和 本 地 变量 引用 之 间 的 复杂 交 
互 。 


我 曾 说 ，my (…) 声明 会 在 词法 范围 (lexical scope) 内 创造 一 个 私有 变量 。 与 私有 变量 的 词 
法 范围 对 应 的 是 全 局 变量 的 范围 ， 但 是 词法 范围 与 动态 作用 域 没 有 关系 ( 仅 有 的 联系 是 : 
不 能 对 my 变量 调用 local)。 请 记 住 ，local 只 是 行为 (action) ， 而 my 既是 行为 ， 又 是 声 
明 ， 这 很 重要 。 


匹配 修改 的 特殊 变量 


Special Variables Modified by a Match 


成 功 的 匹配 会 设置 一 组 只 读 的 全 局 变量 ， 它 们 通常 会 自动 使 用 动态 作用 域 。 如 果 匹 配 不 成 
功 ， 这些 值 永远 也 不 会 改变 。 在 需要 的 时 候 ， 它 们 会 设置 为 空 字符 串 (不 包括 任何 字符 的 
字符 串 ) 或 者 undefina “REL, 一 个 “没有 值 ”的 值 ， 与 空 字符 捉 类 似 ,但 测试 时 两 
者 不 相等 )。 表 7-5 给 出 了 若干 例子 。 


详细 地 说 ， 匹 配 完成 之 后 会 设置 这 些 变量 ; 


$& ”正则 表达 式 所 匹配 文本 的 副本 。 从 效率 方面 考虑 (参见 第 356 页 的 讨论 ) ， 最 好 不 要 使 
用 这 个 变量 (还 包括 下 面 介绍 的 $`、 和 $ )。 一 旦 匹配 成 功 ，$& 就 不 会 是 未 定义 状态 ， 
尽管 它 可 能 是 空 字符 串 。 
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表 7-5: 匹配 后 特殊 变量 的 说 明 


如 下 匹配 完成 之 后 


12 a 4 4 31 
"Pi is 3.14159, roughly" =~ m/\b((tasty| fattening) | (\d+(\.\d*)?))\b/; 


设置 了 下 面 的 特殊 变量 
we. ee 














3 1 全 
















匹配 文本 之 前 的 文本 


Pi*is"* 


$& 匹配 文本 3.14159 
$’ 匹配 文本 之 后 的 文本 , ‘roughly 
$1 第 1 组 括号 匹配 的 文本 3.14159 
$2 第 2 组 括号 匹配 的 文本 undef 

$3 第 3 组 括号 匹配 的 文本 3.14159 
$4 第 4 组 括号 匹配 的 文本 .14159 

$+ 编号 最 大 的 括号 匹配 的 文本 .14159 
$^N 最 后 结束 的 笑 号 匹配 的 文本 3.14159 


目标 文本 中 各 匹配 开始 位 置 的 偏 移 值 数组 
目标 文本 中 各 匹配 结束 位 置 的 偏 移 值 数组 


(6, 6, undef, 6, 7) 
{13, 13, undef, 13, 13) 


$” 在 目标 文本 中 匹配 开始 之 前 (左边 ) 文本 的 副本 。 如 果 使 用 /g 修饰 符 ， 你 可 以 期 望 $ 
的 起 点 是 开始 尝试 位 置 的 文本 , 但 它 每 次 都 是 从 整个 字符 串 的 开始 位 置 开始 的 。 如果 匹 
配 成 功 ，$* 肯 定 不 会 是 未 定义 状态 。 


S 保存 目标 文本 中 匹配 成 功 文本 之 后 (右边 ) 的 文本 的 副本 。 如 果 匹 配 成 功 ，$ 肯定 不 会 
是 未 定义 状态 。 匹 配 成 功 之 后 ， 字 符 串 "$' se 5$…" 就 是 目标 字符 串 的 副本 ( 注 5)。 


Pie $2, $3、 ... 


对 应 第 1、2、3 组 捕获 型 括号 匹配 的 文本 (请 注意 ， 这 里 没有 $0， 因 为 它 是 脚本 的 名 
字 ， 与 正则 表达 式 无 关 )。 如 果 它 们 对 应 的 括号 在 表达 式 中 不 存在 ， 或 者 没有 实际 参与 
匹配 ， 则 设置 为 未 定义 状态 。 


匹配 之 后 就 可 以 使 用 这 些 变量 ， 在 s/…/…/ 中 的 replacement 也 可 以 使 用 。 它 们 还 能 在 
动态 正则 结构 或 者 贬 入 代码 中 使 用 (327)。 在 正则 表达 式 中 使 用 这 些 变量 是 没 多 少 
意义 的 (因为 已 经 有 了 "1 之 类 )。 请 参考 第 303 页 的 “在 正则 表达 式 中 使 用 $1”。 


Aw FI Ow + 的 区 别 可 以 用 来 说 明 $1 的 设置 方式 。 两 个 表达 式 都 能 匹配 同样 的 文 


注 5: 事实 上 ， 即 使 目标 字符 事 是 未 定义 的 ， 但 能 匹配 成 功 (RRK, ATHE), "SSE 
$'" 是 一 个 空 字符 事 ， 而 不 是 未 定义 。 只 有 在 这 种 情况 下 ， 两 者 才 不 一 样 。 
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本 ， 但 是 它们 的 区 别 在 于 括号 内 的 子 表达 式 匹配 的 内 容 。 用 这 个 表达 式 匹 配 字符 串 
“tubby ,第 一 个 表达 式 的 sl WAAL ‘cubby’, 而 第 二 个 表达 式 中 的 $1 RS ‘y’: 
在 (\w)+! 中 ， 加 号 在 括号 外 面 ， 所 以 每 次 迭代 都 会 重新 捕获 ，s1 保留 最 后 的 字符 。 


还 需要 注意 的 是 (x) ?, 和 '(x?) ,的 差别 。 前 一 个 表达 式 中 括号 及 其 捕获 内 容 不 是 必然 
出 现 的 ， 所 以 $1 可 能 是 “x' ,或 者 是 未 定义 ,但 "(x?) ,中 括号 在 匹配 的 外 面 一 一 匹配 
的 内 容 不 是 必然 出 现 的 ， 但 匹配 必须 发 生 。 如 果 整 个 表达 式 匹配 成 功 ， 这 部 分 的 匹配 
必然 会 发 生 , 尽管 x? 匹配 的 是 空 字符 捉 。 所 以 在 '(x?), 中 ,$1 可 能 是 “x' 或 者 是 空 













/:(A2):/ 
"2:" =~ m/:(A)?:/ 
"3sA:" =~ m/:(A?):/ 


"sA:" =~ m/:(A)?:/ 


从 上 表 可 以 看 出 ， 如 果 需 要 添加 括号 来 捕获 文本 ， 如 何 添加 取决 于 我 们 的 意图 。 在 所 
尝 的 例子 中 ， 增 加 的 括号 对 整体 匹配 没有 影响 (整体 匹配 是 不 变 的 ) ， 其 中 唯一 的 区 别 
就 是 $1 设置 的 伴随 效应 。 


表示 $1、$2 等 匹配 过 程 中 明确 设 定 的， 编号 最 大 的 变量 的 副本 。 在 下 面 的 情况 中 会 有 
用 : 


= (EEE: 
未 定义 


=~ Mm/: (\w*) :/ Word 






=~ m/:(\w)*:/ 





$url =~ m{ 
href \s* = \s* # 匹配 "href = "， 然 后 是 它 的 值 ... 
(Pz (nse = # 双 引 号 字符 事 ， 或 者 ... 
I ATT * # 单 引 号 字符 事 ， 或 者 . . . 
| ((*'"<>)+) ) # 非 引 号 形式 的 值 _ 


}ix; 
如 果 没 有 $+， 我 们 可 能 需要 依次 检查 $1、$2 和 $3， 才 能 找 出 明确 设置 的 那个 。 
如 采 正 则 表达 式 中 没有 捕获 型 括号 (或 者 在 匹配 中 没有 用 到 )， 则 这 个 值 为 未 定义 。 


SN 最 后 结束 的 ， 在 匹配 中 明确 设 定 的 括号 匹配 的 文本 的 副本 (明确 设 定 的 $1 等 变量 中 ， 


闭 括 号 在 最 后 )。 如 果 正 则 表达 式 中 没有 捕获 型 括号 (或 者 匹配 中 没有 用 到 )， 则 其 值 
为 未 定义 。 第 344 页 开头 有 个 恰当 的 例子 。 
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@- 和 @+ 


表示 各 捕获 型 括号 所 匹配 文本 的 起 始 和 结束 位 置 在 目标 文本 中 偏 移 值 的 数组 。 使 用 起 
来 可 能 有 点 迷惑 ， 因 为 它们 的 名 字 比 较 怪 异 。 两 个 数组 的 第 一 个 元 素 都 对 应 整体 匹配 。 
也 就 是 说 ， 通 过 $- [0] 访 问 到 的 8- 的 第 一 个 元 素 ， 是 整个 匹配 在 目标 字符 串 中 的 偏 移 
值 ， Ril ; 

$text = "Version 6 coming soon?"; 

Stext =~ m/\d+/; 


S$-[0] 的 值 为 8， 代表 匹配 从 目标 字符 串 的 第 8 个 位 置 开始 (在 Perl 中 ， 偏 移 值 从 0 
开始 )。 


e+ 的 第 一 个 元 素 通过 $+ [0] 访 问 ， 表 示 对 应 匹配 文本 结束 位 置 的 偏 移 值 。 在 上 例 中 其 
值 为 9， 表示 整体 匹配 结束 于 目标 字符 串 的 第 9 个 字符 之 前 。 所 以 ， 如 果 scext 没有 
变化 ，subetr($text，$-[0]，$+[0] - $-[0]) 就 等 于 S&， 但 没有 ss 那样 的 性 能 缺 
陷 (= 了 356)， 下 例 给 出 了 e- 的 简单 用 法 ， 


1 while $line =~ s/\t/' ' x (8 - $-[0] % 8)/e; 
它 会 把 给 定 文本 中 的 制 表 符 (tab) 替换 为 合适 长 度 的 空格 序列 QE 6). 


两 个 数组 中 接 下 来 的 元 素 分 别 对 应 各 捕获 分 组 的 开始 位 置 和 结束 位 置 的 偏 移 值 。$- [11 
和 $+[1] 对 应 $1，$-[2] 和 $+[2] 对 应 $2， 依 次 类 推 。 


这 个 变量 保存 最 近 执行 的 伐 入 代码 的 结果 ， 如 果 和 嵌入 代码 结构 作为 “(? if then | else), 
条 件 语句 (7140) 中 的 证 部 分 ， 则 不 设 定 S*R。 在 正则 表达 式 内 部 (BERA RER 
者 动态 正则 结构 >327 中 ) ， 它 会 自动 根据 匹配 的 各 部 分 进行 本 地 化 处 理 ， 所 以 因为 回 
滴 而 “交还 ”的 代码 对 应 的 $^R 的 值 会 被 放弃 。 换 一 种 说 法 就 是 ， 它 保存 引擎 到 达 当 前 
状态 的 工作 路 径 中 “最 近 ” 的 值 。 


如 果 正 则 表达 式 根据 /g 修饰 符 重复 使 用 ， 那 么 每 次 循环 都 会 重新 设置 这 些 变 量 。 也 就 是 说 
可 以 在 s/…/…/g 中 使 用 $1， 因 为 每 次 匹配 时 它 的 值 都 不 一 样 。 


注 6: 这 段 代 码 的 局 限 在 与 ， 它 只 能 处 理 “ 传 统 ” 西 方 文本 ， 而 无 法 正确 处 理 包 含 “ 枝 ” 之 类 的 


宽 字 和 罕 集 ， 因 为 宽 字 符 集中 显示 一 个 字符 可 能 需要 两 个 以 上 的 位 置 ， 某 些 Unicode 语音 字 
符 ， 例如 吝 ， 也 无 法 处 理 (7107), 
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在 正则 表达 式 中 使 用 $1 


Perl 手册 专门 提 到 , 在 正则 表达 式 外 部 , 不 能 用 \14 反 向 引用 (而 应 该 使 用 $1)。 变 量 $1 对 
应 上 次 成 功 匹 配 中 的 某 个 固定 字符 串 。\1, 则 是 正则 表达 式 元 字符 , CIENS MAH 
时 第 一 组 捕获 型 括号 捕获 的 文本 。 在 NFA 的 回溯 过 程 中 ， 它 的 值 可 能 会 变化 。 

与 之 对 应 的 问题 是 ， 正 则 运算 元 中 是 否 能 够 使 用 $1 SRE. HK, CARRERA 
态 正则 结构 (327) 中 可 用 , 在 其 他 情况 下 就 没什么 意义 。 出 现在 运算 元 中 “表达 式 部 分 ” 


的 $1 与 其 他 变量 一 样 处 理 : 在 匹配 或 替换 操作 开始 时 插值 。 也 就 是 说 ， 对 正则 表达 式 而 言 ， 
$1 与 当前 的 匹配 没什么 关系 ， 它 属于 上 一 次 匹配 。 


qr/ = 运算 符 与 regex WR 


The qi/.../ Operator and Regex Objects 


在 第 2 章 和 第 6 章 已 经 简要 介绍 过 (“76，277) 一 元 运算 符 ar/…/， 其 运算 元 为 正则 表达 
A, JBE regex 对 象 。 返 回 的 对 象 可 以 被 之 后 的 正则 运算 符 用 来 匹配 、 替 换 、 分 割 ， 或 者 可 
以 作为 其 他 的 更 长 表达 式 的 一 部 分 。 


regex 对 象 主要 用 来 把 正则 表达 式 封装 为 一 个 单元 , 构建 大 的 正则 表达 式 , 以 及 提高 效率 (在 
正则 表达 式 编 译 时 提高 控制 能 力 ， 讨 论 见 下 文 )。 


291 页 已 经 介绍 过 ， 用 户 可 以 使 用 自己 的 分 隔 符 ， 例 如 qr{…} 或 者 qr!…!。 它 还 支持 核心 
修饰 符 /i、 /x、/s、/m 和 /0o。 


构建 和 使 用 regex 对 象 


Building and Using Regex Objects 


下 面 的 表达 式 来 自 第 2 章 (776): 
my $HostnameRegex = qr/[-a-z0-9]+(? :\.[-a-z0-9] +)*\.{?: comledulinfo) /i; 


my $HttpUrl = qrt{ 


http:// §$HostnameRegex \b # Hostname 
(?: 
/ [-a-z0-9-:\@&?=-+,.!/~*'&\$]* # 可 能 出 现 的 path 
(?<![.,?!]) # 不 容许 以 [.,?1] 结 是 
) ? 
}ix; 
ifl 
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第 一 行 代码 把 匹配 主机 名 所 用 的 简单 正则 表达 式 封装 为 regex 对 象 ,保存 到 变量 $Hostname- 
Regex 中 。 下 一 行使 用 该 变量 构建 匹配 HTTP URL 的 regex 对 象 ， 保 存 到 SHtcpUrl 中 。 构 
完成 之 后 就 可 以 以 多 种 方式 使 用 ， 例 如 : 
if ($text =~ $HttpUrl) { 


print "There is a URL\n"; 
} 


while ($text =~ m/(S$HttpUrl)/g) í 
print “Found URL: $1\n"; 


用 来 搜索 和 显示 所 有 的 HTPP URL, 
如 果 按 照 第 5 章 的 讲解 (7205) 修改 $SHostnameRegex: 


my SHostnameRegex = ar{ 


# 一 个 或 多 个 点 号 分 陪 部 分 


(?: [a-z0-9]\. | {a-z0-9] [-a-z0-9] {0,61}[a-z0-9]\. ) * 

# BR 

(?: com!ledulgov]/int|/mil|netlorg|biz|infol--:|aero| [a-z] [a-z] ) 
}xi; 


它 的 使 用 方式 与 之 前 的 例子 相同 (开头 没有 o, ERRA '$,， 也 没有 捕获 型 括号 )， 所 以 ， 
我 们 的 替换 不 受 限制 。 这 样 能 得 到 更 准确 的 SHttpUrl 。 


匹配 模式 (即使 不 设置 ) 是 不 可 更 改 的 


qr/…/ 支 持 292 页 介绍 的 核心 修饰 符 。regex 对 象 一 旦 构建 完成 ， 对 应 的 匹配 模式 就 不 能 更 
改 了 ， 即 使 regex 对 象 所 在 的 m/…/ 有 自己 的 修饰 符 也 是 如 此 。 下 面 的 代码 就 不 正确 : 


my S$WordRegex = qr/\b \w+ \b/; # 这 里 忘 了 添加 修饰 村 /x 


if ($text =~ m/*(SWordRegex) /x) { 
print "found word at start of text: $1\n"; 
} 
这 里 希望 用 /x 修饰 SwordRegex 的 匹配 模式 ， 但 是 这 并 不 管用 ， 因 为 在 SwordRegex 生成 时 
修饰 符 〈 即 使 不 设置 ) 被 锁定 在 sr/…/ 中 。 所 以 ， 修 饰 符 必须 在 恰当 的 时 候 使 用 。 


i4 
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下 面 的 代码 则 没有 问题 : 


my SWordRegex = qr/\b \w+ \b/x; # 没 问 题 ! 
if ($text =~ m/*($WordRegex)/) { 
print "found word at start of text: $1\n"; 


} 
现在 来 比较 开始 的 代码 和 下 面 的 代码 : 


my $WordRegex = '\b \w+ \b'; # #if FHS 
if ($text =~ m/*($WordRegex)/x) { 
print "found word at start of text: $1\n"; 
} 
这 段 代 码 设 问 题 ， 尽管 SwordRegex 生成 时 没有 任何 修饰 符 。 因 为 SwordRegex 是 普通 变量 ， 
保存 普通 的 字符 串 ， 用 作 m/…/ 的 插值 。 因 为 各 方面 的 原因 ， 用 字符 串 构建 正则 表达 式 比 
regex 对 象 要 麻烦 得 多 , 比如 在 这 个 例子 中 , 必须 记 住 SwordRegex 必须 和 /x 一 起 使 用 才 行 。 


我 们 也 可 以 只 使 用 字符 串 解决 这 个 问题 ， 只 需要 在 表达 式 中 设 定 模式 修饰 范围 (7135); 


my $WordRegex = '(?x:\b \w+ \b)'; # 普通 字符 事 


if ($text =~ m/*(SWordRegex)/) { 
print “found word at start of text: $1\n"; 
} 


此 时 , m/…/ 的 正则 文字 插值 之 后 , 正则 引擎 接收 到 “((?x:\b*\wr"\b)),， 这 就 是 我 们 期 望 
的 结果 。 


其 实 这 就 是 生成 regex 对 象 的 逻辑 过 程 ， 只 是 regex 对 象 对 于 每 个 模式 修饰 符 ， 都 明确 定义 
T “on” 或 “off ”的 状态 。 用 ar/\b'\w+'\b/x 生 成 '(?x-ism:\b'\w+.\b),。 请 注意 模式 修 
饰 符 的 设 定 (?x-ism:…))， 这 里 启用 了 /x， 禁 止 了 /i、/s 和 /m。 也 就 是 说 , 无论 是 否 指定 
qr/…/ 的 修饰 符 ，regex 对 象 总 是 “ 饥 定 ”在 某 个 模式 下 。 


探究 regex 对 象 


Viewing Regex Objects 


前 面 讨论 了 regex 对 象 综合 正则 表达 式 和 模式 修饰 符 一 一 例如 '(?x-ism:…) 一 一 的 逻辑 过 
程 。 如 果 在 Perl 期 望 接 收 字符 串 的 地 方 使 用 regex 对 象 ，Perl 会 把 它 转换 为 对 应 的 文本 表示 
方式 ， 例 如 : 


% perl -e 'print qr/\b \w+ \b/x, "\n"' 
(?x-ism:\b \w+ \b) 


www.TopSage.com 


306 7M. Perl 


这 就 是 第 304 页 的 SHEtcpUrl 的 转换 结果 : 


(?ix-sm: 
http:// (?ix-sm: 
# 一 个 或 多 个 点 号 分 隔 部 分 


(?: [a-z0-9]\. | [a-z0-9] [-a-z0-9] {0,61}[a-z0-9]\. ) * 
# BH 
{?: comledulgovlintlmillnetlorglbizlintol…1iaerolfa-zj[a-z] ) 


) \b # hostname 
(?: 


/ (-a-20-9-:\@&?=+,.!/~*'S\$]* # 可 能 出 现 的 path 
(2?<!(.,2?!]) # AWEVA[., 27!) SSA 


) ? 


) 


把 regex 对 象 转换 为 字符 串 的 功能 在 调试 时 很 有 用 。 


用 regex 对 象 提高 效率 


Using Regex Objects for Efficiency 


使 用 regex 对 象 的 主要 原因 之 一 是 便于 控制 。 为 了 提高 效率 ，Perl 会 把 正则 表达 式 编译 为 内 
部 形式 。 第 6 章 简要 介绍 了 正则 表达 式 编 译 的 一 般 知 识 ， 但 是 更 复杂 的 Perl 相关 问题 ， 包 
括 regex 对 象 之 类 ， 都 在 “正则 表达 式 编译 、/o 修饰 符 、ar/…/ 和 效率 ”(348) 中 详细 
讨论 。 


Match 运算 符 


The Match Operator 
基本 的 匹配 操作 : 


$text =~ m/regex/ 
是 Perl 的 正则 表达 式 应 用 的 核心 。 在 Perl 中 ， 正 则 表达 式 匹 配 操作 需要 两 个 运算 元 ， 其 一 
是 目标 字符 串 ， 其 二 是 正则 表达 式 ， 返 回 一 个 值 。 
匹配 如 何 进行 ， 返 回 什 么 值 ， 取 决 于 匹配 的 应 用 场合 (7294) 及 其 他 因素 。match 运算 符 
非常 方便 一 一 它 可 以 用 来 测试 某 个 正则 表达 式 能 否 匹 配 一 个 字符 串 ， 或 者 从 字符 串 中 提取 
数据 ， 甚 至 是 与 其 他 匹配 运算 符 一 起 将 字符 串 拆 分 为 各 个 部 分 。 虽 然 功能 强大 ， 这 种 便捷 
也 增加 了 人 掌握 的 难度 。 需 要 关注 的 内 容 包括 : 
。 ”如 何 指定 正则 运算 元 。 
。 ”如 何 指定 匹配 修饰 符 ， 以 及 它们 的 意义 。 
。 如何 指定 目标 字符 串 。 
。 ”匹配 的 伴随 效应 。 
。 “匹配 的 返回 值 。 
。 ”能 影响 匹配 的 外 部 因素 。 
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匹配 的 常见 形式 是 : 
StringOperand =~ RegexOperand 


还 有 许多 简便 方式 ， 值 得 注意 的 是 ， 某 些 简便 形式 下 ， 两 个 运算 元 都 不 是 必须 出 现 的 。 本 
节 中 我 们 会 看 到 各 种 形式 的 例子 。 


Match 的 正则 运算 元 


Match ° s Regex Operand 


正则 运算 元 可 以 是 正则 文字 或 者 regex MR (其 实 可 以 是 字符 串 或 者 任意 的 表达 式 ,但 是 这 
样 做 没什么 好 处 ) 。 如 果 使 用 正则 文字 ， 可 以 指定 修饰 符 。 


使 用 正则 文字 


正则 运算 元 通常 是 m/…/ 或 者 就 是 /…/ 内 的 正则 文字 。 如 果 正 则 文字 的 分 隔 符 是 斜 线 或 问号 
(以 问号 做 分 隔 符 的 情况 很 特殊 ， 稍 后 讨论 ) 则 可 以 省 赂 开头 的 m。 为 保持 一 致 ， 我 不 管 是 
否 必要 都 使 用 m。 之 前 介绍 过 ， 如 果 使 用 m， 你 可 以 使 用 自己 的 分 隔 符 (291)。 


使 用 正则 文字 时 ， 可 以 结合 第 292 页 介绍 的 任何 核心 修饰 符 。 匹 配 运 算 符 还 支持 两 个 另外 
的 运算 符 ， /Cc 和 /g， 下 面 马 上 介绍 。 


使 用 regex 对 象 
正则 运算 元 也 可 以 是 gr/…/ 生 成 的 regex 对 象 ， 例 如 : 


my $regex = qr/regex/; 


sess.. 


sesse 


可 以 在 m/…/ 中 使 用 regex 对 象 。 特 殊 的 情况 是 ， 如 果 “ 正 则 文字 ”中 只 包含 一 个 regex 对 
象 的 插值 ， 那 么 它 就 完全 等 同 于 使 用 此 regex 对 象 。 上 面 这 个 例子 也 可 以 写作 : 


if ($text =~ m/S$regex/) { 


这 很 方便 , 因为 它 看 起 来 更 熟悉 , 也 容许 我 们 对 regex 对 象 使 用 /g 修饰 符 (还 可 以 使 用 m/… 
/支持 的 其 他 的 修饰 符 ， 但 这 在 本 例 中 没有 意义 ， 因 为 它们 不 能 覆盖 regex 对 象 内 锁定 的 模 
式 修饰 符 304). 


ili 
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默认 的 正则 表达 式 


如 果 没 有 指定 正则 表达 式 , 例如 m// (或 者 m/$someVar /而 变量 $sSomeVar 为 空 字符 串 或 未 
定义 ) N Perl 会 使 用 此 代码 所 在 的 动态 作用 域 范围 内 最 近 应 用 成 功 的 正则 表达 式 。 以 前 这 
样 很 有 用， 因为 可 以 提高 效率 ， 后 来 因为 regex 对 象 的 发 展 ( 了 303)， 已 经 没什么 意义 了 。 


?…? 的 特殊 匹配 


除了 之 前 介绍 的 正则 文字 的 各 种 分 隔 符 , match 运算 符 还 可 以 使 用 一 种 特殊 的 分 隔 符 一 一 问 
号 。 问 号 分 隔 符 〈 例 如 m?…?) 提供 的 是 相当 生僻 的 功能 ，m?…? 匹 配 成 功 之 后 ， 除 非 在 同 
FER] package 中 调用 reset 函数 ， 否 则 不 会 再 次 匹配 。 按 照 Perl Version 1 的 手册 上 的 说 法 ， 
这 “是 有 用 的 优化 措施 ， 用 于 在 一 组 文件 中 查找 某 段 信息 的 第 一 次 出 现 "， 但 是 不 知 何故 ， 
我 在 现代 Perl 中 从 未 见 过 。 


问号 分 隔 符 的 特殊 情况 类 似 斜 线 分 隔 符 ，m 也 不 是 必须 出 现 的 : ?…? 完 全 等 价 于 m?…?。 


指定 目标 运算 元 


Specifying the Match Target Operand 


常用 来 指定 “搜索 字符 串 ” 的 做 法 是 =~， 例 如 $text =~ m/…/。 请 记 住 ，=~ 既 不 是 赋值 运 
算 符 ， 也 不 是 比较 运算 符 ， 只 是 一 个 看 来 有 趣 的 运算 符 ， 用 来 连接 运算 元 (这 个 表示 法 改 
编 自 awk ) 。 


因为 整个 “expr =- m/…/” 本 身 就 是 一 个 表达 式 ， 我 们 可 以 在 任何 容许 出 现 表达 式 的 地 方 
使 用 ， 例 如 (以 连 线 分 隔 ): 


$text =~ m/…/; # 这 样 做 ， 大 概 是 从 伴随 效应 者 虑 的 


if ($text =~ m/:/) { 
# 如果 匹 配 成 功 ， 执 行 这 些 代码 


$result = ( $text =~ mA/…/ }; # 把 Sresult 置 为 Stext 的 匹配 结果 
$result = $text =~ m/-/ ; # 同上 =- 的 优先 级 高 于 = 
$copy = $text; # 把 $text HMA Scopy... 
Scopy =~ m/*"/; # ... 在 Scopy 上 匹配 
{ $copy = $text ) =~ m/*…/; # 同上 
默认 的 目标 字符 串 


如 果 目 标 字符 串 是 变量 sS_， 则 可 以 省 略 整个 “$_ =~”。 也 就 是 说 ， 默 认 的 目标 字符 串 就 是 


S_e 
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Stext =~ m/regex/; 
的 意思 是 ,“ 把 regex 应 用 到 $text 中 的 文本 , 忽略 返回 值 , 获取 伴随 效应 ”。 如 果 忘 了 写 '-，， 
结果 就 是 : 

$text = m/regex/; 


它 的 意思 是 “对 $_ 中 的 文本 应 用 正则 表达 式 ， 获 取 伴 随 效应 ， 把 返回 的 true/false 值 赋 给 
$text”。 也 就 是 说 ， 下 面 两 者 是 等 价 的 : 


$text = m/regex/; 
$text = ($_ =~ m/regex/); 


有 时 候 使 用 软 认 目标 字符 串 很 方便 ， 尤 其 是 与 其 他 默认 情况 的 结构 (许多 结构 都 有 默认 值 ) 
结合 时 。 下 面 的 代码 就 很 常见 : 


while (<>) 
{ 
if (m/-:-/) { 


serere 


总 的 来 说 ， 依 赖 默认 运算 元 会 增加 无 经 验 程序 员 阅 读 代 码 的 难度 。 


颠倒 match 的 意义 


可 以 用 !~ 来 取代 =~， 对 返回 值 进行 逻辑 非 操作 (马上 会 介绍 这 么 做 的 返回 值 和 伴随 效应 ， 
但 是 对 于 !~， 返 回 值 就 是 true 或 者 false)， 下 面 三 种 办 法 是 等 价 的 : 


if ($text !~ m/**/) 
if (not $text =~ m/*:/) 
unless ($text =~ m/-:-/) 


从 我 个 人 出 发 ,我 喜欢 中 间 的 办 法 。 无 论 选 用 哪 种 办 法 , 都 会 产生 设置 $1 等 的 伴随 效应 。! - 
只 是 判断 “如 果 不 能 匹配 ”的 简便 方式 。 


Match 运算 符 的 不 同 用 途 


Different Uses of the Match Operator 


可 以 从 match 运算 符 返 回 的 true/false 判断 匹配 是 否 成 功 ， 也 可 以 从 成 功 匹 配 中 获取 其 他 的 
信息 ,与 其 他 match 运算 符 结 合 起 来 .match 运算 符 的 行为 主要 取决 于 它 的 应 用 场合 (了 294)， 
以 及 是 否 使 用 了 /g 修饰 符 。 
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普通 的 “匹配 与 否 ” 一 一 scalar context， 不 使 用 /8g 


在 scalar context 中 (例如 if WR), match 运算 符 返回 的 就 是 true/false: 


if ($target =~ m/-/) { 

# 1... 匹配 成 功 后 的 操作 ... 
} else { 

# ... 匹配 失败 后 的 操作 、.. 


} 
也 可 以 把 结果 赋值 给 一 个 scalar 变量 ， 然 后 检查 
my $success = $target =~ m/:*/; 


eres 


sss... 


普通 的 “从 字符 串 中 提取 数据 ”一 一 list context， 不 使 用 /g 


不 使 用 /g 的 list context， 是 字符 串 中 提取 数据 的 常用 做 法 。 返 回 值 是 一 个 list， 每 个 元 素 是 
正则 表达 式 中 捕获 型 括号 内 的 表达 式 捕 获 的 内 容 。 下 面 这 个 简单 的 例子 用 来 从 69/8/31 中 
提取 日 期 : 


my ($year, $month, $day) = $date =~ m{ ^ (\d+) / (\d+) / (\d+) $ }x; 


匹配 的 3 个 数 作为 3 个 变量 (当然 还 包括 $1、$2 和 $3 等 )。 每 一 组 捕获 型 括号 都 对 应 到 返 
回 序列 中 的 一 个 元 素 ， 空 序列 表示 匹配 失败 。 


有 时 候 ， 某 组 捕获 括号 没有 参与 最 终 的 成 功 匹 配 。 例 如 ，m/ (this) 1{that) /必然 有 一 组 括 
号 不 会 参与 匹配 。 这 样 的 括号 返回 未 定义 的 值 unaef。 如 果 匹 配 成 功 ， 又 没有 使 用 捕获 型 
括号 ， 在 不 使 用 /g 的 list context 中 ， 会 返回 list(1)。 
List context 可 以 以 各 种 方式 指定 ， 包 括 把 结果 赋值 给 一 个 数组 ， 例 如 : 

my @parts = $text =~ m/*(\d+)-(\d+)-(\d+)$/; 
如 果 match 的 接收 参数 是 scalar 变量 ， 请 将 匹配 的 应 用 场合 指定 为 list context， 这 样 才能 获 
得 匹配 的 某 些 捕 获 内 容 ， 而 不 是 表示 匹配 成 功 与 否 的 Boolean 值 。 比 较 这 两 个 测试 : 


my ($word) = $text =~ m/(\w+)/; 
my $success = $text =~ m/(\w+)/; 
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第 一 个 例子 中 ， 变 量 外 的 括号 导致 my 函数 为 赋值 指定 list context。 第 二 个 例子 没有 括号 ， 
所 以 应 用 场合 为 scalar context, $success 只 得 到 true/false 值 。 


下 面 给 出 了 一 个 更 简单 的 做 法 : 


if ( my ($year, $month, $day) = $date =~ m{* (\d+) / (\d+) / (\d+) S}x ) { 
# 如 果 能 够 匹配 ，S$Syear 等 变量 已 经 赋值 

} else { 
# 如 果 不 能 匹配 ... 

} 


这 次 匹配 发 生 在 list context 中 (由 “my (…) =” 提 供 )， 所 以 序列 中 的 变量 会 根据 对 应 的 
$1, $2 之 类 进行 赋值 。 不 过 , 匹配 完成 之 后 , 因为 整个 组 合 是 在 if 条 件 语句 的 scalar context 


HH, Perl 把 list 转换 为 一 个 scalar 变量 。 它 接收 的 是 list 的 长 度 , 如 果 匹 配 不 成 功 , 长 度 为 0， 
如 果 不 为 0， 则 表示 匹配 成 功 。 


“提取 所 有 匹配 ”一 一 list context， 使 用 /g 


此 结构 的 用 处 在 于 ， 它 返回 一 个 文本 序列 ， 每 个 元 素 对 应 捕获 型 括号 匹配 的 文本 (如 果 没 
有 捕获 型 括号 ， 就 返回 整个 表达 式 匹 配 的 文本 ) ， 但 上 一 节 的 例子 只 能 针对 一 次 匹配 ， 而 这 
种 结构 针对 所 有 匹配 。 


下 面 这 个 简单 的 例子 用 来 提取 字符 串 中 的 所 有 整数 : 
my @nums = $text =~ m/\d+/g; 
如 果 $text 包含 IP Hbht ‘64.156.215.240", enum 会 接收 4 PITH, ‘64’. ‘156’. ‘215’. 


“240 。 与 其 他 结构 相 结合 ， 就 能 很 方便 地 把 IP 地 址 转换 为 8 位 16 进 制 数字 ， 例 如 
“409cd7f0" ， 如 果 需 要 创建 紧凑 的 log 文件 ， 这 很 方便 : 


my $hex_ip = join '', map { sprintf£("%02x", $_) } $ip =~ m/\d+/q; 
下 面 的 代码 可 以 把 它 转换 回来 : 
my $ip = join '.', map { hex($_) } $hex_ip =~ m/../g 


男 一 个 例子 是 匹配 一 行 中 的 所 有 浮 点 数 : 


my @nums = $text =~ m/\d+(?:\.\d+)?1\.\d+/q; 


一 定 要 使 用 非 捕获 型 括号 ， 因 为 捕获 型 括号 会 改变 返回 的 结果 。 下 面 的 例子 说 明了 捕获 型 
括号 的 价值 : 


my @Tags = $Html =~ m/<(\w+)/g; 


eTags 会 保存 $Html 中 依次 出 现 的 各 个 tag， 这 里 假设 每 一 个 “<” 都 有 对 应 的 “>'。 
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下 面 的 例子 使 用 了 多 个 捕获 型 括号 :把 Unix 中 邮箱 联系 人 的 alias 文件 的 内 容 存放 在 一 个 字 
符 串 中 ， 数 据 格式 是 : 


alias Jeff jfriedl@regex.info 
alias Perlbug peri5S-porters@perl.org 
alias Prez president @whitehouse.gov 


为 了 提取 每 一 行 中 的 昵称 (alias) 和 完整 地 址 , 我 们 可 以 使 用 mm/^aliasNve+(\S+) \e+(.+) /m 
(不 使 用 /g)。 在 list context 中 ,返回 的 序列 包括 两 个 元 素 ,例如 ('Jeff', 'jfriedle@regex. 
info')。 现 在 用 /g 匹配 所 有 这 样 的 组 合 ， 得 到 的 序列 是 ; 


{ 'Jeff', ‘jfriedi@regex.info', 'Perlbug', 
‘perl5-porters@perl.org’, ‘Prez’, 'president@whitehouse.gov' ) 


如 果 这 个 序列 恰好 符合 key/value 的 形式 , 我 们 可 以 直接 把 它 存 人 一 个 关联 数组 (associative 


array ) 。 
my talias = $text =~ m/*alias\s+(\S+) \s+(.+)/mg; 


返回 之 后 ， 可 以 用 $alias{Jeff} 访 问 'Jeff' 的 完整 地 址 。 


和 迭代 匹配 : Scalar Context， 使 用 /g 


Iterative Matching: Scalar Context, with /g 


scalar context 中 ，m/…/g 是 个 特殊 的 结构 。 和 正常 的 m/…/ 一 样 ， 它 只 进行 一 次 匹配 ,但 是 

和 list context 中 的 m/…/g 一 样 ， 它 会 检查 之 前 匹配 的 发 生 位 置 。 每 次 在 scalar context 中 使 

用 m/…/g 一 一 例如 在 循环 中 ， 它 会 寻找 “下 一 个 ”匹配 。 如 果 失 败 ， 就 会 重 置 “ 当 前 位 置 
(current position)”， 于 是 下 一 次 应 用 从 字符 串 的 开头 开始 。 


这 里 有 个 简单 的 例子 ; 


$text = "WOW! This is a SILLY test."; 

$text =~ m/\b([a -z]+\b)/g; 

print "The first all-lowercase word: $1\n"; 
$text =~ m/\b([A-2Z]+\b) /g; 

print "The subsequent all-uppercase word: $1\n"; 


有 两 次 匹配 是 在 scalar context 中 使 用 /g 进行 的 ， 结 果 为 : 


The first all-lowercase word: is 
The subsequent all-uppercase word: SILLY 


后 两 次 匹配 配合 起 来 ， 前 者 把 “当前 位 置 ”设置 到 匹配 的 小 写字 母 单词 之 后 ， 第 二 个 读 取 
这 个 位 置 ， 在 后 面 寻 找 大 写字 母 单词 。 对 两 个 匹配 来 说 ，/g 都 是 必须 的 ， 这 样 匹 配 才能 注 
意 到 “当前 位 置 "， 所 以 如 果 任 何 一 个 没有 使 用 /g， 第 二 行 会 指向 “wow”。 


www.TopSage.com 


Match 运算 符 313 


scalar context 中 的 /9 匹配 非常 适合 用 作 while 循环 的 条 件 : 


while ($ConfigData =~ m/*(\w+)=(.*)/mg) { 
my ($key, $value) = ($1, $2); 


serere 


最 终 会 找到 所 有 的 匹配 ， 但 是 while 的 循环 体 是 在 匹配 之 间 (或 者 说 ， 在 每 次 匹配 之 后 ) 
执行 。 一 旦 某 次 匹配 失败 ， 结 果 就 是 false， 然 后 while 循环 结束 。 同 样 ， 一 旦 失败 ，/g 状 
态 会 重 置 ， 也 就 是 循环 结束 之 后 的 /g 匹配 会 从 字符 串 的 开头 开始 。 


比较 : 


while (Stext =~ m/(\d+)/) { # RAR: 
print "found: $1\n"; 


和 


while (Stext =~ m/(\d+)/g) { 
print "found: $1\n"; 
} 
唯一 的 区 别 是 /g， 但 是 这 区 别 不 可 小 视 。 如 果 $text 包含 之 前 那个 IP 地 址 ， 第 二 个 程序 给 
出 我 们 期 望 的 结果 : 


found: 64 

found: 156 

found: 215 

found: 240 
相反 ， 第 一 个 程序 不 断 地 打印 “founa: 64”, 不 会 终止 。 不 使 用 /g， 就 意味 着 “找到 $text 
中 第 一 个 '(\ad+),”， 也 就 是 “64' ,无论 匹配 多 少 次 都 是 如 此 。 添 加 /9g 之 后 ， 它 变 成 了 “ 找 
到 $text 中 的 下 一 个 '(\d+);”， 依 次 找到 各 个 数字 。 


“当前 匹配 位 置 ” 和 pos() 函 数 


Perl 中 每 个 字符 串 都 有 对 应 的 “当前 匹配 位 置 (current match position)”, 传动 装置 会 从 这 里 
开始 第 一 次 匹配 的 尝试 。 这 是 字符 串 的 属性 之 一 ， 而 与 正则 表达 式 无 关 。 在 字符 串 创建 或 
者 修改 时 ,“ 当 前 匹配 位 置 ”会 指向 字符 串 的 开头 , 但 是 如 果 /g 匹配 成 功 ， 它 就 会 指向 本 次 
匹配 的 结束 位 置 。 下 一 次 对 字符 串 应 用 /g 匹配 时 ， 匹 配 会 从 同样 的 “当前 匹配 位 置 ”开始 。 
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可 以 通过 pos (…) 函数 得 到 目标 字符 串 的 “当前 匹配 位 置 "， 例 如 : 


my $ip = "64.156.215.240"; 
while ($ip =~ m/(\d+)/g) { 

printf “found ‘$1' ending at location %d\n", pos($ip); 
} 


结果 是 : 


found '64' ending at location 2 

found '156' ending at location 6 

found '215' ending at location 10 

found '240' ending at location 14 
( 记 住 ， 字 符 串 的 下 标 是 从 0 开始 的 ， 所 以 “location 2” 就 是 第 3 个 字符 之 前 的 位 置 )。 在 
/9g 匹配 成 功 之 后 ，$+[0] (8+ 的 第 一 个 元 素 了 302) 就 等 于 目标 字符 串 中 的 pos, 


pos () 函数 的 默认 参数 是 match 运算 符 的 默认 参数 ， 变量 $_。 


预 设 定 字 符 串 的 pos 


pos () 的 真正 能 力 在 于 , 我 们 可 以 通过 它 来 指定 正则 引擎 从 什么 位 置 开 始 匹 配 (当然 是 针对 
/g 的 下 一 次 匹配 ) 。 我 在 Yahoo! 的 时 候 ， 要 处 理 的 Web 服务 器 log 文件 的 格式 是 ， 包 含 32 
字 节 的 定 长 数据 ， 然 后 是 请 求 的 页 面 ， 然 后 是 其 他 信息 。 提 取 请 求 页 面 的 办 法 是 “.{32)，， 
跳 过 开头 的 定 长 数据 : 
if ($logline =~ m/*.{32}(\S+)/) { 
$RequestedPage = $1; 
} 
这 种 硬 办 法 不 够 美观 ， 而 且 要 强迫 正则 引擎 处 理 前 32 个 字 节 。 如 果 我 们 亲自 动手 ， 代 码 会 
好 看 得 多 ， 效 率 也 高 得 多 ; 
pos(Slogline) = 32; # 请 求 页 的 信息 从 第 33 NFR... 
if ($logline =~ m/(\S+)/g) { 
SRequestedPage = $1; 
} 
这 个 程序 好 些 ， 但 还 不 够 好 。 这 个 正则 表达 式 从 我 们 规定 的 位 置 开 始 ， 而 在 此 之 前 不 需要 
匹配 ， 这 一 点 与 上 个 程序 不 同 。 如 果 因 为 某 些 原因 ,第 32 个 字符 不 能 由 "5 匹配， 前 面 那 
个 程序 就 会 匹配 失败 ， 但 是 新 程序 因为 没有 销 定 到 字符 串 的 特殊 位 置 ， 会 由 传动 装置 启动 
驱动 过 程 。 也 就 是 说 ， 它 会 错误 地 返回 一 个 人 \s+, 在 字符 串 后 面部 分 的 匹配 。 幸 好 ,在 下 一 
节 我 们 会 看 到 ， 这 个 问题 很 容易 修复 。 


二 
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使 用 \G 


元 字符 \G 的 意思 是 “锁定 到 上 一 次 匹配 结束 位 置 "。 这 正 是 上 一 节 中 我 们 希望 解决 的 问题 。 


pos(Slogline) = 32; # 设 定 “当前 位 置 ” 从 第 32 个 字符 开始 , 所 以 从 此 处 开始 匹配 ... 
if (Slogline =~ m/\G(\S+)/q) 
{ 
SRequestedPage = $1; 
} 


\G 告诉 传动 装置 ，“ 不 要 启动 驱动 过 程 ， 如 果 在 此 处 匹配 不 能 成 功 ， 就 报告 失败 ”。 
前 面 几 章 曾 经 介绍 过 \Gi: 第 3 章 有 简单 介绍 ( 130) ， 更 复杂 的 例子 在 第 5 章 (7212), 


请 注意 , 在 Perl H, 只 有 "6 出 现在 正则 表达 式 开头 , 而 且 没 有 全 局 性 多 选 结构 的 情况 下 ， 
结果 才 是 可 预测 的 。 第 6 章 的 优化 CSV 解析 程序 的 例子 中 (也 271)， 正 则 表达 式 以 
\G(?:^1,)…J 开 头 。 如 果 更 严格 的 “能 够 匹配 , 就 没 必 要 检查 八 Gj, 所 以 你 可 能 会 把 它 改 
为 (?:^1\G,)…。 不幸 的 是 ， 在 Perl 中 这 样 行 不 通 ， 其 结果 不 可 预测 ( 注 7)。 


使 用 /gc 进行 “Tag-team” 匹 配 


正常 情况 下 ，m/…/g 匹配 失败 会 把 目标 字符 申 的 pos 重 置 到 字符 串 的 开头 ， 但 给 /g 添加 /vc 
之 后 会 造成 一 种 特殊 的 效果 : 匹配 失败 不 会 重 置 目标 字符 串 的 pos (/c 离 不 开 /g， 所 以 我 
一 般 使 用 /gc)。 


m/…/gc 最 常见 的 用 法 是 与 \G,-- 起 , 创建 “词法 分 析 器 ”, 把 字符 串 解析 为 各 个 记号 (token)。 
下 例 简要 说 明了 如 何 解析 Shtml 中 的 HTML 代码 : 


while (not $html =~ m/\G\z/gc) # 在 全 部 检查 完 之 前 ... 
{ 


if ($html =~ m/\G( <[^>]+> )/xgc){ print "TAG: $1\n" } 
elsif ($html =~ m/\G( &\we; )/xgc) { print "NAMED ENTITY: $i\n" } 
elsif ($html =~ m/\G( &\#\d+; )/xgc) { print "NUMERIC ENTITY: $1\n"} 
elsif ($html =~ m/\G( [4<>&\n]+)/xgc) { print "TEXT: $1\n" } 
elsif ($html =~ m/\G \n /xgc){ print "NEWLINE\n" } 
elsif ($html =~ m/\G( . )/xgc){ print "ILLEGAL CHAR: $1\n" } 


else { 
die "$0: oops, this shouldn't happen!"; 
} 
} 


注 7: 在 大 多 数 支持 G1 流派 中 这 样 部 没有 问题 ,即便 如 此 ,我 一 般 也 不 推荐 使 用 它们 ， 因 为 把 
\GI 放 在 正则 表达 式 开 头 带 来 的 收益 大 于 只 在 某 些 情况 下 测试 、G) 的 收益 (7246). 
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每 个 正则 表达 式 的 粗 体 部 分 匹配 一 种 类 型 的 HTML 结构 。 从 当前 位 置 开始 ， 依 次 检查 每 一 
个 正则 表达 式 (使 用 /gc)， 但 是 只 能 在 当前 位 置 尝试 匹配 (因为 使 用 了 "\G1)。 按 照 顺序 依 
次 检查 各 个 正则 表达 式 ， 直 到 找到 能 够 匹配 的 结构 为 止 ， 然 后 报告 。 之 后 把 $html 的 pos 
指向 下 一 个 记号 的 开始 ， 进 入 下 一 轮 循环 的 搜索 。 


循环 终止 的 条 件 是 m/\G\z/gc 能 够 匹配 ， 即 当前 位 置 (Ac) 指向 字符 串 的 末尾 (Az). 


有 一 点 要 注意 ， 每 轮 循环 必须 有 一 个 匹配 。 否 则 (而且 我 们 不 希望 退出 ) 就 会 进入 无 穷 特 
环 ， 因 为 shcml 的 pos 既 不 会 变化 也 不 会 重 置 。 对 现在 的 程序 来 说 ， 最 终 的 else 分 支 永远 
不 会 调用 , 但 是 如 果 我 们 希望 修改 这 个 程序 (马上 就 会 这 么 做 ), 或 许 会 引入 错误 , 所 以 else 
分 支 是 有 必要 保留 的 。 对 目前 这 个 程序 来 说 ， 如 果 接 收 预 料 之 外 的 数据 (例如 “<>')， 会 
在 每 次 遇 到 预料 之 外 的 字符 时 ， 就 发 出 一 条 警报 。 


另 一 点 需要 注意 的 是 各 表达 式 的 检查 顺序 , 例如 把 \c( .)， 作为 最 后 的 检查 。 也 可 以 来 看 下 
面 这 个 识别 <script> 代 码 的 例子 ， 


$html =~ m/\G ( <script[^>]*>.*?</script> ) /xgcsi 


哇 ， 这 里 使 用 了 5 个 修饰 符 ! 为 了 正常 运行 ， 我 们 必须 把 它 放 在 对 字符 串 进行 第 一 次 
<[^*>]+>j 的 匹配 之 前 。 和 否则 < [^>]+>) 会 匹配 开头 的 <script> 标 签 , 这 个 表达 式 就 没 法 运 
FT. 

第 3 章 还 介绍 了 关于 /gc 的 更 高 级 的 例子 (7132), 


Pos 相关 问题 总 结 







下 面 是 match 运算 符 与 目标 字符 串 的 pos 之 间 互 相 作 用 的 总 结 : 






字符 事 起 始 位 置 (忽略 os) 
FH Pi pos 位置 匹配 结束 位 置 的 偏 移 值 






同样 , 只 要 修改 了 字符 串 , pos 就 会 重 置 为 undef (也 就 是 初始 值 , 指向 字符 串 的 起 始 位 置 ) 。 


Match 运算 符 与 环境 的 关系 


The Match Operator ”s Environmental Relations 


下 面 几 节 将 总 结 我 们 已 经 见 到 的 ，match 运算 符 与 Perl 环境 之 间 的 互相 影响 。 
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match 运算 符 的 伴随 效应 


通常 ， 成 功 匹 配 的 伴随 效应 比 返回 值 更 重要 。 事 实 上 ， 在 void context 中 使 用 match 运算 符 
(这 样 甚 至 不 必 检 查 返 回 值 )， 只 是 为 了 获取 伴随 效应 (这 种 情况 类 似 scalar context)。 下 面 
总 结 了 成 功 匹 配 的 伴随 效应 : 


> “匹配 之 后 会 设置 $S1 和 e+ 之 类 变量 ， 供 当前 语法 块 内 其 他 代码 使 用 (7299), 
。 设置 默认 正则 表达 式 ， 供 当前 语法 块 内 其 他 代码 使 用 (2308), 


© ”如果 m?…? 能 够 匹配 ， 它 (也 就 是 m?…? 运 算 符 ) 会 被 标记 为 无 法 继续 匹配 ， 至 少 在 同 
样 的 package 中 ， 不 调用 reset 就 无 法 继续 匹配 (308)。 


当然 ， 这 些 伴随 效应 只 能 在 匹配 成 功 时 发 生 ， 不 成 功 的 匹配 不 会 影响 它们 。 相 反 ， 下 面 的 
伴随 效应 在 任何 匹配 中 都 会 发 生 : 


。 目标 字符 串 的 pos 会 指定 或 者 重 置 (7313), 


。 如果 使 用 了 /o, 正则 表达 式 会 与 这 个 运算 符 “ 融 为 一 体 (fuse)” ,不 会 重新 求 值 (evaluate， 
”352), 


match 运算 符 的 外 部 影响 


match 运算 符 的 行为 会 受到 运算 元 和 修饰 符 的 影响 。 下 面 总 结 了 影响 match 运算 符 的 外 部 因 
素 : 
应 用 场合 context 


match 运算 符 的 应 用 场合 (scalar、list， 或 者 void) 对 匹配 的 进行 、 返 回 值 和 伴随 效应 
有 重要 影响 。 
pos (=) 


目标 字符 串 的 pos (由 前 一 次 匹配 显 式 或 隐 式 设 定 ) 表示 下 一 次 /g 匹配 应 该 开始 的 位 
a, 同时 也 是 ‘NG: 匹配 的 位 置 。 


默认 表达 式 
如 果 提 供 的 正则 表达 式 为 空 ， 就 使 用 默认 的 表达 式 (7308), 
study 


对 匹配 的 内 容 或 返回 值 没 有 任何 影响 ， 但 如 果 对 目标 字符 串 调用 此 函数 ， 匹 配 所 花 的 
时 间 更 少 (也 可 能 更 多 )。 参 考 “Study HR” (7359), 


m?**…? 和 和 reset 


m?…? 运 算 符 有 一 个 看 不 见 的 “已 /未 匹配 ”状态 ， 在 使 用 m?…? 匹 配 或 者 reset 时 设 
Æ (7308), 
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在 context 中 思考 (不 要 忘记 context) 


在 match 运算 符 讲解 结束 之 前 ， 我 要 提 几 个 问题 。 尤 其 是 ， 在 while、if 和 foreach 控制 
结构 中 发 生变 化 时 ， 确 实 需要 保持 头脑 清醒 。 请 问 ， 运 行 下 面 的 程序 会 得 到 什么 结果 ? 


while ("Larry Curly Moe" =~ IPANw+/G) { 
print “WHILE stooge is S&.\n"; 

} 

print "\n"; 


if ("Larry Curly Moe" =~ m/\w+/q) { 
print "IF stooge is $&.\n"; 


print "\n"; 
foreach ("Larry Curly Moe" =~ m/\w+/g) { 


print "FOREACH stooge is $&.\n"; 
} 


这 有 点 儿 难 度 ， 令 请 翻 到 下 页 查看 答案 。 


Substitution 运算 符 
The Substitution Operator 
Perl 的 substitution 运算 符 a/…/…/ 不 但 能 够 匹配 ,还 能 够 替换 匹配 的 文字 。 通常 的 形式 是 : 


$text =~ s/regex/replacement/modifiers 


简单 来 说 ，regex 匹配 的 文本 会 替换 为 replacement 的 值 。 如 果 使 用 了 /g， 这 个 正则 表达 式 
会 重复 应 用 到 文本 中 进行 匹配 ， 每 次 匹配 的 内 容 都 会 被 替换 。 


与 match 操作 一 样 ， 如 果 目 标 字 符 串 在 变量 $S_ 中 ， 上 有 目标 运算 元 和 =-~ 都 不 是 必须 的 。match 
运算 符 可 以 省 略 m， 而 substitution 不 能 省 略 s。 


我 们 已 经 看 到 ，match 运算 符 是 非常 复杂 的 一 一 它 的 工作 原理 ， 它 的 返回 值 ， 都 取决 于 它 所 
在 的 应 用 场合 ， 目 标 字符 串 的 pos， 以 及 使 用 的 修饰 符 。 相 反 ，substimtion 运算 符 很 简单 ， 
它 返回 的 信息 是 不 变 的 (表示 替换 的 次 数 ) ， 影 响 它 的 修饰 符 也 很 好 理解 。 


你 可 以 使 用 第 292 页 介绍 的 所 有 核心 修饰 符 , 但 是 substituion 运算 符 还 支持 另外 两 个 修饰 符 ， 
/g， 以 及 马上 将 要 介绍 的 /e。 


ii 
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AS 


运算 元 replacement 
The Replacement Operand 


在 普通 s/…/…/ 中 ，replacement 紧 跟 在 regex 之 后 ，m/…/ 使 用 两 个 分 隔 符 ， 而 这 里 要 使 用 
3 个 。 如 果 正 则 表达 式 使 用 对 称 的 分 隔 符 〈 例 如 <…>) ， 则 replacement 有 自己 的 一 对 分 隔 符 

(这 样 总 共 就 有 4 个 分 隔 符 ) 。 举 例 来 说 , s{…}{…} 和 s[…]/…/ 和 s<…>'…' 都 是 合法 的 。 
这 种 情况 下 ， 两 对 分 隔 符 可 以 用 空白 字符 分 隔 ， 如 果 使 用 了 空白 字符 ， 还 可 以 添加 注释 。 
对 称 的 分 隔 符 通常 在 /x 或 /e 中 使 用 。 


$text =~ Bf 

ARHAR, K HHA, UA... 
} { 

.. .对 一 段 Perl 代码 求 值 ， 把 结果 作为 replacement... 
}ex; 


请 注意 区 分 regex 和 replacement, regex 会 按照 正则 表达 式 的 方式 来 解析 ， 有 自己 的 分 隔 符 

(7291), replacement 则 会 当 作 普通 的 双 引 号 字符 捉 来 解析 和 求 值 (evaluate) 。 求 值 会 在 
匹配 之 后 进行 (如 果 使 用 了 /g, 每 次 匹配 之 后 都 会 求 值 ), 所 以 $1 之 类 的 变量 能 够 指向 对 应 
的 匹配 内 容 。 


在 下 面 两 种 情况 下 ，replacement 不 会 按照 双 引 号 字符 串 来 解析 : 
。 replacement 的 分 隔 符 是 单 引 号 ， 此 时 作为 单 引 号 字符 串 ， 不 会 进行 变量 插值 ， 


。 (AT /e 修饰 符 (下 一 节 讨 论 ) replacement 会 作为 一 小 段 Perl 代码 而 不 是 双 引 号 字 
符 申 。 这 一 小 段 Perl 代码 会 在 每 次 匹配 之 后 执行 ， 结 果 作为 replacement, 


/e 修饰 符 


The fe Modifier 


/e 修饰 符 会 把 replacement 作为 一 段 Perl 代码 来 进行 求 值 ， 这 就 类 似 eval {…}。 代 码 装 载 
时 ， 首先 会 检查 这 段 代码 的 语法 ， 确 保 没 有 错误 ,但 是 每 次 匹配 之 后 都 会 对 代码 重新 求 值 。 
每 次 匹配 之 后 ，replacement 都 会 在 scalar context 中 重新 求 值 ， 结 果 作 为 replacement。 下 面 
有 个 简单 的 例子 : 


$text =~ gg/-time-/localtime/ge:; 


在 scalar context H, ESH Perl 的 Localtime 函数 的 结果 (也 就 是 返回 表示 当前 时 间 的 文 
Æ, ján “Mon Sep 25 18:36:51 2006”) 替换 -time-i。 


因为 求 值 是 每 次 匹配 之 后 进行 的 ， 我 们 可 以 通过 $1 等 变量 引用 匹配 的 内 容 。 例 如 ，URL 中 
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> 318 页 测验 的 答案 
318 页 代码 的 结果 : 


WHILE stooge is Larry. 


WHILE stooge is Curly. 
WHILE stooge is Moe. 


IF stooge is Larry. 


FOREACH stooge is Moe. 

FOREACH stooge is Moe. 

FOREACH stooge is Moe. 
tiz%, dof foreach 循环 中 的 print 引用 了 5S_ 而 不 是 S&， 结 果 就 会 与 while 的 一 
样 。 在 这 个 foreach 中 ，m/…/g 返回 的 ('Larry'，'Curly'，'Moe') 并 没有 使 用 。 
相反 倒是 使 用 了 伴随 效应 中 的 S&， 这 表示 程序 有 错误 ， 因 为 list context 的 伴随 效应 ， 
m/…/g 并 不 常用 。 





不 容许 出 现 的 特殊 字符 ， 可 以 编码 为 百 分 号 “%” 加 两 位 十 六 进 制 数 的 形式 。 为 了 编码 所 有 
这 种 字符 ， 可 以 这 样 : 


Surl =~ s/([*a-zA-Z0-9))/sprint£ ('%%*%02x',ord($1))/ge; 
下 面 的 程序 可 以 用 来 解码 : 
$url =~ Ss/%([0-9a-f] [0-9a-f])/pack("C", hex($1))/ige; 


简单 地 说 ，sprintf('%%%02x' ，ord(character) ) 把 字符 转换 为 对 应 的 URL Be, M 
pack("c"，value) 的 作用 相反 ， 请 参考 你 常用 的 Perl 文档 获取 更 多 信息 。 


多 次 使 用 /e 


通常 情况 下 ， 对 单个 运算 符 多 次 使 用 同一 修饰 符 没有 特殊 意义 (只 有 让 读者 更 困惑 )， 但 是 
重复 /e 修饰 符 却 会 改变 replacement 的 替换 过 程 。 正 常情 况 下 , replacement 会 进行 一 次 求 值 ， 
但 是 如 果 “e” 的 数目 多 于 1 个 ， 则 Perl 又 会 对 求 值 的 结果 进行 求 值 ， 如 此 一 直 进 行 下 去 ， 
求 值 的 次 数 与 “e ”的 数目 一 样 多 。 或 许 它 的 主要 价值 是 用 作 比 较 Perl 代码 复杂 性 的 测试 。 


不 过 此 功能 并 非 完全 无 用 。 如 果 需 要 手动 进行 变量 插值 〈 例 如 从 配置 文件 读 和 字符 串 )。 也 
就 是 说 ， 有 一 个 字符 种 “…svar… ， 我 们 希望 把 “sSvar” 替 换 为 svar 的 值 。 
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简单 的 办 法 是 : 
Sdata =~ s/(\$[a-zA-2_]\w*) /Sl/eeg; 


如 果 不 使 用 /e， 则 会 替换 匹配 的 “svar ”自身 ， 这 没什么 用 。 使 用 一 个 /e,， 会 对 $1 重新 求 
值 ， 得 到 “$var' ， 这 样 也 没什么 意义 ， 同 样 是 用 匹配 的 文本 替换 自身 。 但 是 如 果 使 用 两 个 
/e， 则 “$var” 会 重新 求 值 ， 得 到 内 容 ， 这 样 就 模拟 了 变量 插值 。 


应 用 场合 与 返回 值 


Context and Return Value 


根据 context 和 /g MARMARA, match 运算 符 会 返回 不 同 的 值 。 不 过 ，substitution 运算 符 
没有 这 么 复杂 一 一 它 返回 的 要 么 是 替换 发 生 的 次 数 ， 要 么 是 空 字符 串 ， 表 示 没 有 发 生 任何 
替换 。 


为 使 用 方便 ,返回 值 为 Boolean 时 (例如 在 if 条 件 语句 中 ) ， 只 要 发 生 了 替换 ,返回 值 就 为 
true, false 表示 没 发 生 替 换 。 


Split 运算 符 


The Split Operator 


功能 多 样 的 split 运算 符 ( 在 不 那么 严格 的 时 候 , 人 们 通常 称 其 为 函数 ) 常 被 视 为 list context 
中 mrg (7311) 的 对 立 物 。 后 者 返回 表达 式 匹 配 的 文本 ， 而 split 返回 由 表达 式 匹配 
的 文本 分 隔 的 文本 。 把 $text =~ m/ :/g 应 用 到 'To.SYS:225558:95-10-03:-a-sh:optional， 
中 ， 返 回 四 个 元 素 的 list: 

Pata Sete Nee hE 
这 似乎 没什么 用 ， 但 是 split (/:/，s$text) 返 回 5 个 元 素 的 list: 

('IO.SYS', '225558', '95-10-03', '-a-sh', ‘optional' ) 
两 个 例子 都 告诉 我 们 ，: 匹配 了 4 次 。 使 用 split, 这 4 次 匹配 把 目标 字符 串 的 副本 分 隔 为 
5 段 ， 返 回 包含 5 个 字符 串 的 list, 
这 个 例子 只 用 单个 字符 分 隔 目 标 字 符 串 ， 其 实 我 们 可 以 使 用 任何 正则 表达 式 : 


@Paragraphs = split(m/\s*<p>\s*/i, $html); 


它 会 按照 <p> 或 者 <P> (两 边 可 能 有 空白 字符 ) 把 shtml 中 的 HTML 代码 分 隔 开 来 。 你 甚至 
可 以 按 位 置 分 隔 : 


@Lines = split(m/*/m, $lines); 


把 字符 串 按 行 切 分 。 
对 最 简单 形式 的 数据 来 说 ，split 非常 有 用 也 很 容易 理解 。 不 过 ， 因 为 存在 许多 参数 、 特 


ill 
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殊 情 况 和 特殊 情形 ， 事 情 会 变 得 复杂 。 在 深入 这 些 细 节 之 前 ， 先 给 出 两 个 特别 有 用 的 例子 : 


。 ”特殊 的 match 运算 符 //， 会 把 目标 字符 捉 切 分 为 单个 字符 ， 也 就 是 说 ，eplit (//， 
"short test") 得 到 10 AEH list: ("gs", "h", "o", ..., "8", "t")。 


。 ”特殊 的 match 运算 符 "… (包含 单个 空格 的 普通 字符 串 ) 把 目标 字符 串 按照 空白 字符 
切 分 ， 等 于 使 用 m/ 八 s+/， 只 是 会 忽略 开头 和 结尾 的 空白 字符 。 这 样 ，split("…"， 


"a'ghort***test"…") Gxl—A EAR. ‘a’, ‘short’ Ñ ‘test’, 
稍 后 讨论 各 种 特殊 情况 ， 我 们 先 来 看 基础 的 部 分 。 


Split 基础 知识 


Basic Split 


split 运算 符 看 起 来 像 函 数 ， 它 接收 3 个 参数 : 


split(match operand, target string, chunk-limit operand) 
括号 是 可 选 的， 未 提供 的 运算 元 会 设置 为 默认 值 (本 节 稍 后 讨论 )。 
split 总 是 在 list context 中 使 用 ， 常 用 的 模式 包括 : 


($varl, S$var2, $var3, **) = split{=); 
@array = Ssplit(.…); 


nae 


match 运算 元 


运算 元 match 有 几 种 特殊 情况 ， 不 过 它 通常 等 价 于 match 操作 中 的 regex 运算 元 。 也 就 是 
说 ， 你 可 以 使 用 /…/ 和 mf{…} 之 类 的 形式 ， 它 可 以 是 regex 对 象 ， 或 者 任何 能 够 求 值 为 字符 
串 的 表达 式 。 它 只 支持 第 292 页 介绍 的 核心 修饰 符 。 


如 果 继 续 要 用 括号 来 分 组 ,请 务必 使 用 非 捕获 型 括号 (?:…),。 我 们 稍 后 将 会 看 到 , 在 split 
中 使 用 捕获 型 括号 会 触发 极 特殊 的 功能 。 


target string 运算 元 


target string 只 用 于 检测 ， 绝 不 会 被 修改 。 如 果 没 有 设 定 ， 默 认 使 用 $_。 


E 
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chunk-limit 运算 元 

chunk-limit 运算 元 的 主要 功能 是 设 定 split 切 分 字符 串 的 数目 上 限 。 对 上 面 的 例子 中 同样 
的 目标 字符 申 调 用 split(/:/, $text, 3)48]: 


( 'IO. SYS‘, '225558', '95-10-03;-a-sh:optional' } 


这 告诉 我 们 ，/ : /匹配 两 次 之 后 split 会 终止 , 产生 所 需 的 3 段 。 它 可 能 可 以 匹配 更 多 的 次 
数 ， 但 这 里 不 需要 ， 因 为 存在 段 的 数目 限制 。 设 定 的 数目 将 作为 上 限 ， 所 以 最 多 只 能 返回 
规定 数目 的 元 素 〈 除 非 正则 表达 式 包含 捕获 型 括号 ， 后 文 会 论 及 )。 得 到 的 元 素数 目 可 能 少 
于 上 限 ， 如 果 得 到 的 分 段 少 于 规定 的 数目 ， 也 不 会 有 多 余 的 内 容 来 “填充 。 对 于 示例 所 用 
的 数据 ，split(/:/，$text，99) 返 回 的 list 只 有 5 个 元 素 。 不 过 ，split(/:/， $text) 
和 split (/:/,$text，99) 有 重要 的 区 别 ， 这 里 暂时 还 看 不 出 来 一 一 请 记 住 这 一 点 ， 稍 后 
我 们 会 仔细 讲解 。 


记 住 ，chunk-limit 运算 元 指向 的 是 各 匹配 之 间 的 分 段 , 而 不 是 匹配 的 数目 本 身 。 否 则 ， 前 面 
那个 上 限 为 3 的 例子 就 应 该 得 到 这 个 : 


('IO.SYS', '225558 ', ‘'95-10-03', '-a-sh:optional' ) 
这 不 是 程序 运行 的 结果 。 
这 里 谈 谈 效 率 : 假设 只 希望 取 开 头 的 几 个 元 素 ， 例 如 : 


($filename, $size, $date) = split(/:/, $text); 


为 了 提高 效率 ， 在 需要 的 元 素 赋值 之 后 ，Perl 会 停止 split 操作 。 它 会 自动 把 chunk-limit 
设置 为 list 的 元 素 个 数 +1。 


深入 split 

从 我 们 接触 过 的 例子 来 看 ，split 很 容易 使 用 ， 但 有 三 个 特殊 的 问题 增加 了 它 实 践 起 来 的 
复杂 程度 : 

。 BECK. 

。 ”特殊 的 regex 运算 符 。 

。 ”包含 捕获 型 括号 的 regex。 

下 面 分 别 讨论 。 


if 
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返回 空 元 素 


Returning Empty Elements 


split 的 基本 功能 是 返回 由 各 个 匹配 分 隔 的 分 本 ,但 有 的 时 候 , 返回 的 文本 是 空 宁 符 串 (长 
度 为 0 的 字符 串 ， 例 如 "") ， 比 如 : 

enums = split(m/:/, "12334:3,78") 
Cg: 

Wk a a i. 
正则 表达 式 :匹配 了 3 次 ,所 以 应 当 返回 4 个 元 素 。 第 3 个 元 素 为 空 ， 表示 正则 表达 式 在 
一 行 中 匹配 了 两 次 ， 它 们 之 间 没有 文本 。 


结尾 的 空 元 素 

通常 情况 下 ， 结 尾 的 空 元 素 不 会 返回 ， 例 如 ， 
@nums = split(m/:/, "12:34::78:2:.") 1 

闻 样 会 返回 4 SICH: 


("12", 34", en "78") 
即使 这 个 正则 表达 式 在 字符 串 的 末尾 能 匹配 更 多 的 次 数 ， 结 果 也 没有 变化 。 在 默认 情况 下 ， 
split 不 会 返回 list 末尾 的 空 元 素 。 不 过 , 我 们 可 以 通过 设 定 chunk-limit 运算 元 , 让 split 
返回 所 有 的 末尾 元 素 。 


chunk-limit 运算 元 的 次 要 职能 


chunk-limit 的 主要 用 途 是 设 定 分 段 数目 的 上 限 ， 任 何不 等 于 0 的 chunk-limit 都 会 保留 末尾 
的 空 元 素 (chunk-limit 设置 为 零 等 价 于 不 设置 chunk-limit) 。 如果 你 不 希望 限制 返回 的 chunk 
的 数目 ， 但 是 希望 保留 末尾 的 空 元 素 ， 只 需要 设置 一 个 非常 大 的 限制 即 可 。 或 者 更 好 的 办 
法 是 , 设置 为 -1, 因为 chunk-limit 为 负数 表示 一 个 足够 大 的 上 限 ; split(/:/, $text, -1) 
会 返回 所 有 的 元 素 ， 包 括 末 尾 的 空 元 素 。 

另 一 个 极端 是 ， 如 果 你 不 希望 保留 任何 空 元 素 ， 可 以 在 split 之 前 使 用 grep{lengthl 。 使 
用 grep 之 后 ， 只 会 返回 长 度 不 为 0 的 元 素 (也 就 是 说 ， 非 空 元 素 )。 


my @NonEmpty = grep { length } split(/:/, $text); 


FFE BA RIFF Be 
在 字符 串 开头 的 匹配 会 产生 一 个 空 元 素 : 


@nums = split(m/:/, ":12:34::78") 


0- Oo” “od 
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@num 的 值 为 : 
(xe a12", “34", ne 76") 


开始 的 空 元 素 表明 ， 正 则 表达 式 在 字符 串 的 开头 能 够 匹配 。 不 过 也 有 例外 ， 如 果 一 个 正则 
表达 式 没 有 匹配 任何 文本 ， 如 果 它 在 字符 串 的 开头 或 者 结尾 匹配 ， 那 么 开头 和 /或 结尾 的 空 
元 素 将 不 会 生成 。 来 看 个 简单 的 例子 : eplit(/\b/，"a simple test")， 它 能 够 匹配 其 
中 的 6 个 位 置 “a…"simple…"tesc，。 即 使 它 能 匹配 6 次 ， 也 不 会 返回 7 个 元 素 ， 而 是 5 
TCH: ("a"，"*"，"simple"，"*"，"test")。 其 实 ， 这 种 特殊 情况 我 们 已 经 见 过 ， 即 
第 321 页 的 @Lines = split(m/*/m, $lines)。 


Split 中 的 特殊 Regex 运算 元 


Split ` s Special Regex Operands 


split 的 match 运算 元 通常 就 是 正则 文字 或 者 regex 对 象 ， 这 与 match 运算 符 的 情况 一 样 ， 
不 过 也 有 例外 : 


。 regex 为 空 的 意思 不 是 “使 用 当前 的 默认 正则 表达 式 "， 而 是 把 目标 字符 串 分 割 为 字符 。 
在 刚 开 始 讨论 split 的 时 候 我 们 见 过 这 个 例子 ，split(//，"ehort test") 返 回 10 


个 元 素 的 list: ("s", "h", "o", «+, "8", "t"), 


。 “如果 match 运算 元 是 由 单个 空格 构成 的 字符 串 (而 不 是 正则 表达 式 ) ， 则 是 另 一 种 特殊 
情况 。 它 基本 等 同 与 人/\s+/， 只 是 会 忽略 开头 的 空白 字符 。 这 主要 是 为 了 模拟 awk 对 
输入 进行 的 默认 的 输入 -记录 -分 隔 (input-record-separator) 操作 ,尽管 对 普通 情况 来 说 
它 也 很 有 用 。 


如 果 和 希望 保留 开头 的 空白 字符 , 可 以 直接 使 用 m/s+/。 如果 希 望 保留 末尾 的 空白 字符 ， 
只 需要 把 chunk-limit 设置 为 -1。 


。 ”如 果 没 有 设置 regex 运算 元 ， 则 默认 使 用 一 个 空格 符 (上 面 提 到 的 特殊 情况 )。 这 样 ， 
不 带 任何 运算 元 的 split 就 等 价 于 split(…'，$_，0)。 


。 如果 regex H's, 会 自动 使 用 修饰 符 /m (增强 型 行销 点 匹配 模式 ) 。( 因 为 某 些 原因 ,'s， 
则 不 行 )。 因 为 明确 使 用 m/^ 锋 非常 容 易 ， 我 推荐 这 种 更 清晰 的 写法 。m/ “人 m 是 把 包含 
多 行文 本 的 字符 串 按 行 切 分 的 简便 方法 。 


Split 不 产生 伴随 效应 


请 注意 , split 的 match 运算 元 看 起 来 很 像 普 通 的 match 运算 符 , 但 是 它 没 有 任何 伴随 效应 。 
split 中 的 正则 表达 式 不 会 影响 到 之 后 的 match 或 是 substitution 操作 所 用 的 默认 正则 表达 


it 
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式 ， 也 不 会 设置 $g、$'、$1 之 类 的 变量 。split 在 伴随 效应 上 完全 独立 于 程序 的 其 他 部 分 
( 注 8)。 


Split 中 带 捕获 型 括号 的 match 运算 元 


Split ` s Match Operand with Capturing Parentheses 


捕获 型 括号 会 从 整体 上 改变 split, 一 旦 使 用 了 捕获 型 括号 , 返回 的 list 中 会 多 出 些 独 立 的 
元 素 ， 它 们 对 应 于 括号 捕获 的 元 素 。 也 就 是 说 ，split 没有 返回 的 部 分 或 全 部 的 文本 ， 会 ' 
包含 在 返回 的 list 中 。 


例如 ， 在 处 理 HTML 时 ， 对 下 面 的 文本 调用 split (/ (<[^>]*>)/): 
"and<B>very‘<FONT*color=red>very</FONT>"much</B>'effort:… 
返回 : 


( '... sand*', ‘<B>', 'very*', '<FONT'color=red>', 
‘very’, ‘</FONT>', ‘*much', ‘</B>', ‘*effort...'" ) 


如 果 去 掉 捕 获 型 括号 ，split(/<[^>]*>/) 返 回 : 


( '... ‘ands’, ‘very*', ‘very’, ‘*much', ‘*effort...' } 


多 出 来 的 元 素 不 受 分 段 上 限 的 限制 (chunk-limit 限制 原来 字符 串 切 分 之 后 的 分 段 数目 ， 而 
不 是 返回 元 素 的 数目 )。 


如 果 包 含 多 个 捕获 型 括号 ， 每 次 匹配 之 后 ，list 会 多 出 多 个 元 素 。 如 果 某 个 捕获 型 括号 没有 
参与 匹配 ， 对 应 的 元 素 为 undef, 


巧 用 Perl 的 专 有 特性 


Fun with Perl Enhancements 


最 先 由 Pel 提供 的 许多 正则 表达 式 概念 ， 现 在 其 他 语言 也 提供 了 。 包 括 非 捕获 型 括号 、 环 
H (以 及 之 后 的 逆序 环视 ) 、 宽 松 排列 模式 (其实 是 大 多 数 模式 ， 实 际 上 还 包括 配套 的 \ai、 
\z 和 仆 2)、 固 化 分 组 、\G, 和 条 件 判断 结构 。 这 些 概 念 不 再 是 Perl 独 有 的 , 所 以 我 把 它们 
挪 到 本 书 的 通用 部 分 。 


不 过 Perl 者 也 没有 停止 创新 ， 所 以 现在 还 有 些 重要 的 概念 只 有 Perl 提供 。 其 中 最 有 意思 的 
是 在 匹配 尝试 中 执行 任意 代码 的 功能 。 长 期 起 来 , Perl 的 特点 之 一 就 是 正则 表达 式 与 代码 的 
紧密 集成 ， 但 是 此 特性 把 集成 提升 到 了 新 的 高 度 。 


注 8: 其 实 确 实 存 在 一 种 件 随 效 应 ， 它 在 若干 年 前 就 被 手 齐 (deprecate) 了 ， 但 是 没有 从 语言 中 
去 除 。 如 果 在 scalar context 或 者 void context 下 使 用 split ， 它 会 把 结果 写 入 @_ 变 量 ( 它 
也 是 用 来 传递 函数 和 参数 的 变 重 ， 所 以 万 万 不 要 在 这 两 种 应 用 场合 下 使 用 split)。 在 这 两 
种 情况 下 使 用 split ， 如 果 设 置 了 use warning 或 是 命令 行 参 数 -w， 都 会 看 到 警报 。 
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我 们 先 来 简单 看 看 这 个 特性 和 目前 Perl 独 有 的 其 他 特性 ， 然 后 详细 讲解 。 
动态 正则 结构 (??{ perl code })) 


应 用 正则 表达 式 时 ， 每 次 过 到 表达 式 中 的 这 个 结构 ， 就 会 执行 其 中 的 Perl 代码 。 执 行 
的 结果 (或 者 是 regex 对 象 ， 或 者 是 解释 为 正则 表达 式 的 字符 串 ) 会 作为 当前 匹配 的 
一 部 分 即刻 被 应 用 。 


(dr)(??{"X{$1}"})$; 中 的 动态 正则 结构 以 下 画 线 标注 , 这 个 正则 表达 式 匹 配 的 行 
开头 是 一 个 数 ， 然 后 是 字符 “x” 必 须 重 现 对 应 的 次 数 ， 直 到 行 末 尾 。 





它 能 匹配 “3XXX” 和 “12XXXXXXXXXXXX"” ， 但 不 能 匹配 “3X7” 或 “7XXXX ” 。 


仔细 看 “3xxx” 就 会 发 现 ， 开头 的 '(\ad+) 匹配 xxx ， 把 SI 设 为 “3 。 之 后 正则 引 
擎 遇 到 动态 正则 结构 ， 执 行 “x{$1}”， 得 到 “x{3} "， 解 释 得 到 的 'x{3}, 作 为 当前 正 
则 表达 式 的 一 部 分 (匹配 “3xxx" )， 末 尾 的 S 匹配 “3Xxx、， 得 到 整体 匹配 。 


下 面 我 们 会 看 到 ， 匹 配 任意 深度 的 嵌 套 结构 时 ， 动 态 正 则 结构 尤其 有 用 。 
PIER BAH | (?{ arbitrary perl code} ), 


与 动态 正则 结构 一 样 ， 在 正则 表达 式 的 应 用 过 程 中 ， 遇 到 此 结构 也 会 执行 其 中 的 Perl 
代码 ， 但 是 这 个 结构 更 为 通用 ， 因 为 代码 不 需要 返回 任何 特定 的 值 。 通 常 也 不 会 用 到 
返回 值 (不 过 如 果 表 达 式 之 后 的 部 分 需要 ， 可 以 通过 变量 $^R AH 302), 


有 一 种 情况 会 用 到 这 段 代码 的 执行 结果 ; 如 果 内 嵌 的 代码 结构 用 作 “(? if thenielse), 中 
的 放 条 件 ( 宁 140)。 此 时 ， 结 果 会 解释 为 布尔 值 ， 根 据 它 来 决定 执行 then 还 是 else 分 
ie 


内 嵌 代 码 可 以 于 许多 事情 ， 相 当 有 用 的 就 是 调试 。 下 面 这 段 程序 会 在 每 次 应 用 正则 表 
达 式 时 显示 一 条 信息 ， 内 嵌 的 代码 结构 用 下 夯 线 标注 : 
"hava a nice day" =~ ml{ 
(?{ print "Starting match. \n"}) 
\b(?: the | an | a )\b 


}x; 
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测试 中 ， 正 则 表达 式 只 匹配 1 次 ， 但 是 信息 会 显示 6 次 ， 说 明 传 动 装置 在 第 6 次 尝试 
之 前 已 经 在 5 个 位 置 应 用 了 正则 表达 式 ， 第 6 次 可 以 完全 匹配 。 


正则 文字 重 载 


正则 文字 重 载 能 够 让 程序 员 先 自行 处 理 正 则 文字 ， 再 将 它们 交 给 正则 引擎 。 它 可 以 用 
来 为 Perl 的 正则 流派 扩展 新 的 功能 。 例 如 ，Perl 没有 提供 单独 的 单词 起 始 和 结束 分 隔 
TF (RA \bj) ， 不 过 你 可 能 希望 使 用 < 和 \>， 让 Perl 能 够 识别 这 些 结构 。 


正则 重 载 有 些 重要 的 限制 ， 严 格 制约 了 它 的 用 途 。 在 讲解 \< 与 \> 的 例子 时 我 们 会 看 到 
这 一 点 。 


如 果 正 则 表达 式 中 内 嵌 了 Perl 代码 (无 论 是 动态 正则 结构 还 是 内 巍 代 码 结构 )， 最 好 是 只 
用 全 局 变量 ， 除 非 你 明白 关于 338 页 讲解 的 my 变量 的 重要 知识 。 关 于 my 变量 的 讨论 ， 请 
参阅 第 338 页 。 


用 动态 正则 表达 式 结构 匹配 嵌 套 结构 


Using a Dynamic Regex to Match Nested Pairs 


动态 正则 表达 式 的 主要 用 途 之 一 是 匹配 任意 深度 的 戏 套 结构 《长久 以 来 人 们 认为 正则 表达 
式 对 此 无 能 为 力 ) 。 匹 配 任意 深度 的 能 套 括号 是 个 重要 的 例子 。 为 了 说 明白 动态 正则 如 何 解 
决 这 个 问题 ， 我 们 首先 必须 知道 传统 结构 为 什么 不 能 解决 这 个 问题 。 


匹配 括号 文本 的 简单 表达 式 是 八 (([^()])*\)。 在 外 月 括号 内 不 容许 出 现 括 号 ， 所 以 不 能 
ARE (也 就 是 ， 只 容许 深度 为 0 ORE). A regex 对 象 来 表示 就 是 : 


my $Level0 = qr/ \( ( [*()] )* \) /x; # 括号 内 文本 


Ne 


if ($text =~ m/\b( \w+$Level0 )/x) { 
print “found function call: $1\n"; 


} 


IX AEMBPC AC “substr(Sstr, 0, 3)”, 但 不 能 配 “substr ($str，0，(3+2))”， 因 为 它 包 
含 嵌 套 的 括号 。 现 在 修改 正则 表达 式 来 处 理 它 ， 也 就 是 需要 能 够 处 理 深度 为 1 RE. 
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容许 深度 为 1 的 媒 套 意味 着 ， 外 部 的 括号 里 头 可 以 出 现 括号 。 所 以 ， 我 们 需要 修改 匹配 外 
层 括号 内 文本 的 表达 式 '[^ () 11, 添加 一 个 子 表达 式 匹 配 内 层 括号 里 的 文本 。 我 们 可 以 这 样 ， 
SLevel0 保存 这 样 一 个 正则 表达 式 ， 再 从 此 往 上 司 加 : 


my $Level0 = qr/ \( ( [*()] booth. SEF # 括号 内 文本 
my $Levell = qr/ \( ( [^()]| $Level0 )* \) /x; # L1ERE 


这 里 的 SLevel0 与 之 前 的 相同 ， 新 出 现 了 $Level1， 匹 配对 应 深度 的 括号 ， 加 上 $Leve10， 
就 得 到 深度 为 1 KE. 


为 了 增加 人 嵌 套 的 深度 ， 我 们 可 以 用 同样 的 方法 ， 通 过 $Level1 (仍然 使 用 $Leve10) 得 到 


SLevel2 ， 


my $Level0 = qr/ \( ( [*()] )* \) /X; # FARA 

my $Levell = qr/ \( ( [*()] | $LevelO )* \) /x; # LEKË 

my $Level2 = qr/ \( ( [*()] | $Levell )* \) /x; # 2EkE 
继续 下 去 就 是 : 

my $Level3 = qr/ \( ( [*()] ; $Level2 )* \) /x; # JERK 

my $Level4 = qr/ \( ( [*()] ; $Level3 )* \) /x; # LKŠ 

my $Level5 = qr/ \( ( [*()] ; $Level4 )* \) /x; # SAKE 


图 7-1 说 明了 开始 几 层 的 情况 : 





图 7-1: 层 数 较 少 的 谋 套 


把 这 些 层级 加 起 来 的 结果 很 复杂 ， 下 面 是 $SLeve113: 
VCCLAO DINGO OTINGEL* OLDEN COL COI AND) AND AND AND 


这 相当 难看 。 
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幸运 的 是 ， 我 们 不 需要 直接 解释 它 ( 那 是 正则 引擎 的 工作 )。 使 用 srevel 变量 很 容易 处 理 ， 
但 问题 是 ， 储 套 的 深度 是 由 $Level 变量 的 数目 决定 的 。 这 种 办 法 不 够 灵活 (用 墨 非 定律 来 
说 就 是 ， 如 果 程 序 能 处 理 深度 为 X 的 嵌 套 ， 则 遇 到 的 数据 的 嵌 套 深 度 必定 会 是 X+1)。 


幸运 的 是 ,动态 正则 可 以 应 付 任意 深度 的 能 套 。 你 只 需要 想 明白 , 除 第 一 个 之 外 ,每 个 SLevel 
变量 的 构建 方式 都 是 相同 的 需要 增加 一 级 伐 套 深度 时 ， 只 需要 包含 上 一 级 的 SLevel 变量 
即 可 。 但 如 果 $Level 变量 都 是 相同 的 ， 它 就 同样 能 包含 更 深 级 别 的 SLevel。 事 实 上 ， 它 还 
可 以 包括 自身 。 如 果 在 匹配 更 深层 的 嵌 套 时 它 可 以 用 某 种 方式 包含 自身 ， 就 能 递归 地 处 理 
FERRE ARE. 


这 就 是 动态 正则 的 威力 所 在 。 如 果 我 们 创建 一 个 regex 对 象 一 一 比如 $Level BR, MATL 
在 动态 正则 中 引用 它 (动态 正则 结构 可 以 包含 任意 的 Perl 代码 ， 只 要 结果 能 被 解释 为 正则 
表达 式 , 返回 已 存在 的 regex 对 象 的 Perl 代码 当然 符合 要 求 ) 。 如 果 我 们 能 把 sLevel 之 类 的 
regex 对 象 放 和 信 $LevelN， 就 可 以 用 '(??{ $LevelN }), 来 引用 它 : 


my $LevelN; # 必须 首先 声明 ， 下 面 才能 使 用 
SLevelN = qr/ \(( [*()] | (??{ $LevelN }) )* \) /x; 


ERREL ACE RRR REGS, FR ZaAAYsLevelo; 
if ($text =~ m/\b( \w+SLevelN )/x) { 


print "found function call: $1\n"; 
} 


哈 ! 想 明 白 其 中 的 道理 可 不 是 件 容易 的 事情 ， 不 过 一 旦 用 过 ， 就 会 发 现 这 个 工具 的 价值 。 
现在 我 们 已 经 有 了 基本 的 办 法 ， 我 希望 做 些 修改 提高 效率 。 我 会 替换 捕获 型 括号 为 固化 分 


组 (这 里 既 不 需要 捕获 文本 , 也 不 需要 回溯 ), ZELE ONL KAO RAAR, 
(不 要 在 固化 分 组 中 这 样 做 ， 否 则 会 造成 无 休止 匹配 226)。 


最 后 , 我 希望 把 \ OAV ,移动 到 动态 正则 表达 式 两 端 。 这 样 , 在 确实 需要 用 到 之 前 ,引擎 
不 会 直接 调用 动态 正则 结构 。 下 面 是 修改 之 后 的 版 本 : 


$LevelN = qr/ (?> [^()]+ | \{ (??{ $LevelN }) \) )* /x; 


因为 它 不 包含 外 部 的 八 (…\),， 调 用 $LevelN 时 必须 手动 添加 。 


Hii 
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这 样 一 来 ， 表 达 式 就 十 分 灵活 ， 可 以 在 任何 可 能 出 现 嵌 套 括 号 的 地 方 使 用 ， 而 不 仅仅 是 出 
RT REE SHEH.: 


if ($text =~ m/\b( \w+ \( SLevelN \) )/x) { 
print “found function call: $1\n"; 


if (not $text =~ m/* $LevelN $/x) { 
print “mismatched parentheses!\n"; 


} 
第 343 页 还 有 一 个 关于 $LevelN 的 例子 。 


AARNE 


Using the Embedded-Code Construct 


内 嵌 代 码 结构 很 适合 调试 正则 表达 式 ， 以 及 积累 正在 进行 的 匹配 的 信息 。 下 面 几 页 详细 给 
出 了 一 组 例子 ， 最 终 得 到 模拟 POSIX 匹配 的 方法 。 讲 解 的 过 程 可 能 比 真正 的 答案 更 有 意思 
(除非 你 只 需要 POSIX 的 匹配 语意 )， 因 为 在 讲解 中 我 们 会 收获 有 用 的 技巧 和 启发 。 


先 从 简单 的 正则 表达 式 调试 技巧 开始 。 


用 内 柑 代 码 显 示 匹 配 进 行 信息 
这 段 程序 : 


"abcdefgh" =~ m{ 
(?{ print "starting match at [$$']\n" }) 
(?:dlelf) 


starting match at [|labcdefgh) 
Starting match at [albcdefgh] 
Starting match at [ab|cdefgh] 
starting match at [abcdefgh] 


正则 表达 式 的 开头 就 是 内 嵌 代 码 结构 ， 所 以 只 要 正则 表达 式 开 始 新 一 轮 匹 配 ， 就 会 执行 ; 


print "starting match at [$*'I$‘]\n" 


ERR Es As’ (7300) ( 注 9) 表示 目标 字符 串 ， 用 “1 ”标记 当前 的 匹配 位 置 (在 这 里 就 
是 匹配 开始 的 位 置 ) 。 从 结果 中 我 们 可 以 知道 ， 传 动 装置 (7148) 进行 了 4 次 应 用 ， 才 匹 
配 成 功 。 


注 9: 通常 ， 我 不 推 荫 使 用 特殊 的 匹配 变量 S'\、5S& 和 5S4， 它 们 会 降低 整个 程序 的 效率 (7356), 
但 是 它们 对 临时 调试 非常 有 用 。 
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事实 上 ， 如 果 我 们 添加 ;: 


(?{ print "matched at [S$'<$&>$’]\n" J) 


在 正则 表达 式 末 尾 ， 则 结果 是 : 


matched at [abc<d>efgh} 


现在 来 看 下 面 的 程序 ， 除 了 “ 主 ” 正 则 表达 式 是 [aef] 而 不 是 "(?:dielf)i, 之 外 ， 其 他 部 
分 与 开头 的 例子 是 一 样 的 : 
“abcdefgh” =~ m{ 
(?{ print “starting match at [$*‘I$’]\n" }) 


[def] 
}x; 


从 理论 上 说 ， 结 果 应 该 是 一 样 的 ， 实 际 情况 却 是 : 

starting match at [abcidefgh] 
为 什么 呢 ? Perl 足够 聪明 ， 对 这 个 以 “Idef]) 开头 的 正则 表达 式 进 行 开头 字符 /字符 组 / 字 串 
识别 优化 (247)， 这 样 传动 装置 就 能 略 过 那些 它 认 为 必然 会 失败 的 尝试 。 结 果 是 忽略 了 


其 他 所 有 尝试 ， 只 进行 了 可 能 导致 匹配 的 尝试 ， 我 们 可 以 通过 内 和 崔 代 码 结构 观察 到 这 种 现 
象 。 


panic: top_env 


使 用 内 嵌 代 码 或 是 动态 正则 表达 式 时 ， 如 果 程 序 和 忽然 终止 ， 给 出 这 样 的 信息 : 
panic: top_env 

很 可 能 是 因为 正则 表达 式 的 代码 部 分 存在 语法 错误 。Perl 不 能 识别 某 些 错误 的 语法 ， 

结果 就 是 这 条 信息 。 解 决 的 办 法 就 是 修正 语法 错误 。 





用 内 檬 代码 显示 所 有 匹配 


Perl 使 用 的 是 传统 型 NFA 引擎 ， 所 以 一 旦 找到 匹配 就 会 停 下 来 ， 即 使 还 存在 其 他 的 匹配 也 
是 如 此 。 如 果 巧 妙 地 使 用 内 艇 代码 ， 我 们 能 够 让 Perl 显示 所 有 的 匹配 。 我 们 仍然 以 177 页 
的 “onself ”为 例 来 说 明 。 
"oneselfsufficient" =~ m{ 
one (self)?(selfsufficient) ? 


(?{print “matched at [$*<S$&>$‘]\n" }) 
}x; 


it 
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结果 如 我 们 所 料 ; 


matched at [<oneself>sufficienc] 
表示 “eneselfsufficient” 已 经 被 正则 表达 式 匹 配 。 


重要 的 是 认识 到 ,结果 中 的 “matched” 的 部 分 并 不 是 所 有 “能 够 匹配 ”的 文本 ， 只 是 到 目 
前 获得 的 匹配 。 在 这 个 例子 中 谈论 其 中 的 区 别 意 义 不 大 ， 因 为 内 内 代码 结构 位 于 正则 表达 
式 的 最 后 。 我 们 知道 ， 内 风 代 码 结构 完成 时 ， 整 个 正则 表达 式 的 所 有 匹配 尝试 都 已 结束 ， 
实际 匹配 的 结果 就 是 如 此 。 


不 过 ， 在 内 幅 代 码 结构 之 后 添加 '(?!) ,的 情况 如 何 呢 ?“(?!), 是 否定 型 顺序 环视 ， 它 必然 
会 失败 。 如 果 它 在 内 柑 代 码 执 行 之 后 生效 (也 就 是 在 “matched” 信 息 打印 之 后 ) ， 就 会 强迫 
引 敬 回溯， 查找 新 的 匹配 。 每 次 输出 “matched” 信 息 之 后 , '(?!) ,都 会 强迫 引擎 回溯 ， 最 
终 试 壳 所 有 的 可 能 。 

matched at [<oneself>sufficient] 


matched at [<oneselfsufficient>] 
matched at [<one>selfsufficient] 


我 们 所 做 的 修改 确保 正则 表达 式 必 然 不 能 完整 匹配 ， 但 是 这 样 做 却 能 让 引擎 报告 显示 所 有 
可 能 的 匹配 。 如 果 不 使 用 '(?!)J,, Pel 只 会 返回 第 一 个 匹配 , 使 用 5(? !)) 则 可 以 见 到 其 他 可 
能 。 


了 解 了 这 一 点 之 后 ， 来 看 看 下 面 的 代码 ， 


"123" =~ m{ 
\d+ 
(?{ print "matched at [$‘<S&>$']\n" }) 
(?!) 
}x3 
结果 是 : 


matched at [<123>] 
matched at [<12>3] 
matched at [<1>23] 
matched at [1<23>] 
matched at [1<2>3] 
matched at [(12<3>] 


前 三 行 是 我 们 能 够 想象 的 , 但 如 果 不 仔细 动 动脑 筋 ， 可 能 没 法 理解 后 三 行 。(?!) ,强迫 进行 
的 回溯 对 应 第 二 行 和 第 三 行 。 在 开始 位 置 的 尝试 失败 之 后 ， 传 动 装置 会 启动 驱动 过 程 ， 从 
第 二 个 字符 开始 (第 4 章 对 此 有 详细 介绍 )。 第 四 行 和 第 五 行 对 应 第 二 轮 尝 试 ， 最 后 一 行 对 
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所 以 ， 添加 (?!) 之 后 确实 能 显示 出 所 有 可 能 的 匹配 ， 而 不 是 从 某 个 特定 位 置 开 始 的 所 有 匹 
配 。 不 过 ， 有 了 时候 只 需要 从 特定 位 置 开始 的 所 有 匹配 ， 下 面 我 们 将 会 看 到 。 


寻找 最 长 匹配 


如 果 我 们 不 希望 找到 所 有 匹配 ， 而 是 希望 找到 并 保存 最 长 的 匹配 ， 应 该 如 何 做 呢 ? 我 们 可 
以 用 一 个 变量 来 保存 “到 目前 为 止 ”最 长 的 匹配 ， 比 较 每 一 个 “当前 匹配 ”和 它 。 下 面 是 
‘onself” 的 例子 : 


$longest_match = undef; # 用 于 记录 最 长 的 匹配 


“oneselfsufficient" =~ m{ 
one (self)?(selfsufficient) ? 
(?{ 
# 比较 当前 匹配 (S&) 与 之 前 记录 的 最 长 匹配 
if (not defined($longest_match) 
or 
length($&) > length($longest_match) ) 
{ 
Slongest_match = S&; 
} 
}) 
(2?!) # 保证 匹配 失败 ， 通 过 回溯 继续 寻找 其 他 匹配 


}x; 


# PRAA, ae 
if (defined(Slongest_match)) { 
print "longest match=[Slongest_match] \n"; 
} else { 
print "no match\n"; 
} 


SAAT, GRE ‘longest match=(oneselfsufficient]”’, K—-RARRIBRK, 7 
过 将 来 我 们 可 能 会 使 用 ， 所 以 我 们 把 它 和 '(?!) ,封装 起 来 ， 作 为 单独 的 regex HR: 


my $RecordPossibleMatch = ar{ 
(?{ 
# 比较 当前 匹配 ($&) 与 之 前 记录 的 最 长 匹配 
if (not defined($longest_match) 
or 
' length{($&) > length(S$longest_match) ) 
{ 
Slongest_match = $&; 
} 
}) 
(2!) # 保证 匹配 失败 ， 通 过 回溯 继续 寻找 其 他 匹配 


}x; 


iH 
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下 面 这 个 简单 例子 会 找到 最 长 的 匹配 “9938": 


Slongest_match = undef; # 记录 最 长 的 匹配 
"800-998-9938" =~ m{ \d+ $RecordPossibleMatch }x; 


# 输出 到 目前 为 止 的 累积 结果 
if (defined(Slongest_match)) { 
print "longest match=[{Slongest_match] \n"; 
} else { 
print "no match\n"; 
} 


寻找 最 左 最 长 的 匹配 


我 们 已 经 能 找到 最 长 的 全 局 匹配 ， 现 在 需要 找到 出 现在 最 前 边 的 最 长 匹配 。POSIX NFA 就 
是 这 样 做 的 《=177)。 所 以 ， 如 果 找 到 一 个 匹配 ， 就 要 禁止 传动 装置 的 驱动 过 程 。 这 样 ， 
一 旦 我 们 找到 某 个 匹配 ， 正 常 的 回溯 会 起 作用 ， 在 同一 位 置 寻找 其 他 可 能 的 匹配 (同时 需 
要 保存 最 长 的 匹配 ) ， 但 是 禁用 驱动 过 程 保 证 不 会 从 其 他 位 置 寻找 匹配 。 


Perl 不 容许 我 们 直接 操作 传动 装置 ， 所 以 我 们 不 能 直接 禁用 驱动 过 程 ， 但 如 果 slongest_ 
match 已 经 定义 , 我 们 能 够 达到 实现 禁用 驱动 过 程 的 效果 。 测试 定义 的 代码 是 '(?{ defined 
$longest_match})j, 但 这 还 不 够 ,因为 它 只 测试 变量 是 否定 义 。 重 要 的 是 根据 测试 结果 进 
行 判断 。 


ER AAI PE ARAB 


为 了 让 正则 引擎 根据 测试 结果 改变 行为 ， 我 们 把 测试 代码 作为 '(? ifthen 1 else) ,中 的 并 部 
分 (140)。 如 果 我 们 希望 测试 结果 为 真 时 正则 表达 式 停 下 来 ， 就 把 必然 失败 的 21) E 
为 then 部 分 。( 这 里 不 需要 else 部 分 ， 所 以 没有 出 现 )。 下 面 是 封装 了 条 件 判断 的 regex 对 
R: 


my $BailIfAnyMatch = qr /(?(?{defined $longet_match}) (?!))/; 


放 部 分 以 下 画 线 标注 ，then 部 分 以 粗 体 标注 。 卜 面 是 它 的 应 用 实例 ,其 中 结合 了 前 一 页 定义 


的 SRecordPossibleMatch， 


"800-998-9938" =~ m{ $BailIfAnyMatch \d+ $RecordPossibleMatch }x; 


得 到 “800 ， 它 符合 POSIX 标准 一 一 “所 有 最 左 位 置 开始 的 匹配 中 最 长 的 匹配 ”。 


FARA HER local 函数 


Using Jocalin an Embedded-Code Construct 


local 在 内 嵌 代 码 结构 中 有 特殊 的 意义 。 理 解 它 需要 充分 掌握 动态 作用 域 (7295) 的 概念 和 
第 4 章 讲解 表达 式 主导 的 NFA 引擎 工作 原理 时 所 做 的 “面包 渣 比喻 ”(158)。 下 面 这 段 专 
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门 设计 【我们 会 看 到 ， 它 有 缺陷 ) 的 程序 没有 太 多 复杂 的 东西 , 但 有 助 于 理解 local 的 意义 。 
它 检 查 一 行文 本 是 否 只 包含 wA Asu, URA BD w+ 是 、\d+\bi: 

my SCount = 0; 

$text =~ m{ 


^ (?> \d+ (?{$Count++}) \b | \w+ | \s+ )*S 
}x; 





如 果 用 它 来 匹配 字符 串 “123"abc*73*9271*xyz”，$Count 的 值 是 3。 不 过 ， 如 果 匹 配 字 符 
串 “123"abc*73xyz" ， 结 果 就 是 2， 虽 然 应 该 是 1。 问 题 在 于 ，“73” 匹 配 之 后 ，$count 的 
值 会 发 生变 化 ,因为 后 面 的 \b 无 法 匹配 ,\a+ 当时 匹配 的 内 容 需 要 通过 回溯 “交还 ", 内 
诺 结 构 的 代码 却 不 能 恢复 到 “未 执行 ”的 状态 。 


如 果 你 还 不 完全 了 解 固化 分 组 (?>…): (7139) 和 上 面 发 生 的 回溯 也 没关系 ， 固 化 分 组 用 
于 避免 无 休止 匹配 (269)， 但 不 会 影响 结构 内 部 的 回溯 ， 只 会 影响 重新 进入 此 结构 的 回 
溯 。 所 以 如 果 接 下 来 的 \b, 不 能 匹配 ,\d+, 的 “交还 ”就 完全 没有 问题 。 


简单 的 解决 办 法 是 ， 在 $count 增加 之 前 添加 “bl， 保 证 它 的 值 只 有 在 不 进行 “交还 ”操作 
的 情况 下 才 会 变化 。 不 过 我 更 愿意 在 这 里 使 用 1ocal， 来 说 明 应 用 正则 表达 式 期 间 这 个 函 
数 对 Perl 代码 的 影响 。 来 看 这 段 程序 : 


our $Count = 0; 


Stext =~ mf 
^ (?> \d+ (?{ local($Count) = $Count + 1 }) \b | \w+ | \s+ )* $ 
}x; 


要 注意 的 第 一 点 是 ，$Count 从 my 变量 变 为 全 局 变量 (我 推荐 使 用 use strict, MRA 
做 了 ， 就 必须 使 用 our 来 “声明 ”全 局 变量 )。 


男 一 点 要 注意 的 是 ，$count 的 修改 已 经 本 地 化 了 。 关 键 在 于 : 对 正则 表达 式 内 部 的 本 地 化 
变量 来 说 ， 如 果 因 为 回溯 需要 “交还 ”1local 的 代码 ， 它 会 恢复 到 之 前 的 值 (新 设 定 的 值 
会 被 放弃 ) 。 所 以 ， 即 使 local ($count) = $Count +1 在 人 df 匹配 “73 ”之 后 执行 ， 把 
$Count 的 值 从 1 改 为 2， 这 个 修改 也 只 会 是 调用 local 时 的 “本 地 化 到 (当前 正则 表达 式 
的 ) 成 功 路 径 " 。 如 果 \b 匹配 失败 ， 正则 引擎 会 回溯 到 local 之 前 ，$count 恢复 到 1。 这 
也 就 是 正则 表达 式 结 束 时 的 值 。 
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Ak Perl 代码 的 插值 


因为 安全 方面 的 考虑 ，Perl 不 容许 用 内 嵌 代 码 结构 '(?{…])) | 或 动态 表达 式 结构 
(3?1{…)) ;1 对 正则 表达 式 进行 字符 事 插 值 (不 过 它们 可 以 进行 regex RIG, KF 
第 334 页 的 SRecordPossibleMatch)， 也 就 是 说 : 

m{ (?{ print "starting\n" }) some regex: }x; 
是 可 以 的 ， 但 

my $ShowStart = ‘(?{ print "starting\n" })'; 

m{ $ShowStart some regex" }x; 
不 行 。 之 所 以 要 施加 这 种 限制 ， 是 因为 把 用 户 的 输入 作为 正则 表达 式 的 一 部 分 是 长 期 
以 来 的 普遍 做 法 ， 引 入 这 些 结构 会 容许 用 户 运 行 任意 代码 ， 带 来 严重 的 安全 隐患 ， 所 
以 ， 默 认 情 况 下 不 容许 这 样 。 
如 果 你 喜欢 这 样 插值 ， 可 以 使 用 下 面 的 声明 (declaration) : 

use re ‘eval'; 


LAA TRG] (设置 其 他 参数 ,编译 指示 (pragma) use re 也 可 以 用 于 调试 , 7361) 


整理 用 于 插值 的 输入 数据 


如 果 采 用 了 上 面 的 做 法 ， 而 且 确 实 需要 使 用 用 户 输 入 的 数据 插值 ， 请 确保 其 中 不 包含 
A Perl 代码 或 者 动态 正则 结构 。 我 们 可 以 用 正则 表达 式 八 (\s*\?+[pf]i 来 校 验 .。 如 
有 果 输 入 数据 能 够 匹配 ， 把 它 用 在 正则 表达 式 里 就 是 不 安全 的 。 使 用 必 s*i 是 因为 TVxi 
修饰 衬 容许 开 括号 之 后 出 现 空白 字符 (我 更 愿意 相信 它们 不 应 该 出 现在 那里 ， 不 过 事 
实 却 与 此 相反 )。 加 号 约束 的 ?1 保证 两 种 结构 都 可 以 识别 。 最 后 ， 包含 训 是 为 了 匹配 
现在 已 经 废弃 的 '(?p{…}) 1 结构 ， 也 就 是 老 版 本 的 和 ?21{…})1。 


我 想 最 好 的 办 法 是 由 Perl 提供 某 个 修饰 罕 ,控制 在 整个 正则 表达 式 或 某 个 子 表达 式 中 ， 
容许 还 是 禁止 使 用 内 嵌 代 码 。 但 是 在 没有 实现 之 前 ， 我 们 必须 按照 上 面 介绍 的 办 法 手 
工 检查 。 





所 以 ， 为 了 保证 $count 的 记 数 不 发 生 错 误 ， 必 须 使 用 10cal。 如 果 把 '(?{ print "Final 
count is $Count.\n" })) 放 在 正则 表达 式 的 末尾 ， 它 会 显示 正确 的 计数 值 。 因 为 我 们 希 
望 在 匹配 完成 之 后 使 用 $count ， 就 必须 在 匹配 正式 结束 之 前 把 它 保存 到 一 个 非 本 地 化 的 变 
量 中 。 因 为 匹配 完成 之 后 ， 所 有 在 匹配 过 程 中 本 地 化 的 变量 都 会 丢失 。 
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下 面 是 一 个 例子 : 


my S$Count = undef; 
our $TmpCount = 0; 


Stext =~ m{ 
^ (?> \d+ (?{ local($TmpCount) = $TmpCount + 1 }) \b I \w+ | \s+ )+ $ 
(?{ $Count = $TmpCount }) # RE#Scount AAAA EEF 
}x; 
if (defined $Count) { 
print "Count is $Count.\n"; 
} else { 
print "no match\n"; 
} 


看 起 来 这 么 做 有 点 儿 折腾 ， 但 这 个 例子 的 目的 是 说 明正 则 表达 式 中 本 地 化 变量 的 工作 机 制 。 
我 们 会 在 第 344 页 的 “模拟 命名 捕获 ”中 见 到 实际 的 应 用 。 


ATF ARKH my 变量 的 忠告 


A Warning About Embedded Code and my Variables 


如 果 my 变量 在 正则 表达 式 之 外 声明 ， 那 么 在 正则 表达 式 之 中 的 内 嵌 代 码 引 用 ， 就 必须 非常 
小 心 ， Perl 中 变量 绑 定 的 详细 规定 可 能 会 产生 重大 的 影响 。 在 讲解 这 个 问题 之 前 ， 我 必须 
指出 ， 如 果 正 则 表达 式 的 内 世代 码 中 使 用 的 都 是 全 局 变量 就 没有 这 种 问题 ， 完 全 可 以 跳 过 
这 一 节 。 忠 告 : 这 一 节 难 度 不 小 。 


下 面 的 例子 说 明了 问题 : 


sub CheckOptimizer 
{ 
my $text = shift; # 第 一 个 参数 是 要 检索 的 文本 
my $start = undef; # 记录 表达 式 第 一 次 应 用 的 位 置 
my Smatch = $text =~ m{ 
(?{ $start = $-{0] if not defined $start)) # 保存 第 一 次 应 用 的 位 置 
\d # 这 是 需要 测试 的 正则 表达 式 
}x; 
if (not defined $start) { 
print "The whole match was optimized away.\n"; 
if ($match) { 
# 这 种 情况 不 可 能 发 生 ! 
print "Whoa, but it matched! How can this happen!?\n"; 
} 
} elsif ($start == 0) { 
print "The match start was not optimized.\n"; 
} else { 
print “The optimizer started the match at character $start. \n" 
} 
} 


程序 中 包含 3 个 my 变量 ,但 是 只 有 $start 与 此 问题 有 关 (因为 其 他 两 个 并 没有 在 内 幅 代 
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码 中 引用 )。 程 序 首先 把 $start 设 为 未 定义 的 值 ， 然 后 应 用 开头 元 素 为 内 媒人 代码 的 匹配 ， 
只 是 在 $start 未 设 定时 ， 内 徐 代 码 结构 才 会 把 Sstart 设置 到 尝试 开始 位 置 。 本 次 尝试 的 
起 始 位 置 ” 取 自 $- [0] (e- 的 第 1 个 元 素 =302)。 


CheckOptimizer("test 123"); 


结果 就 是 : 


The optimizer started the match at character 5. 
这 没有 问题 ， 但 如 果 我 们 再 运行 一 次 ， 结 果 就 成 了 : 


The whole match was optimized away . 
Whoa, but it matched! How can this happen!? 


即使 正则 表达 式 检 查 的 文本 没有 变化 (而 且 正 则 表达 式 本 身 也 没有 变化 ), 结果 却 不 一 样 了 ， 

你 发 现 问题 了 吗 ? 问题 就 在 于 ， 在 第 二 次 调用 中 编译 正则 表达 式 时 ， 内 嵌 代 码 中 的 sscart 

取 的 是 第 一 次 运行 之 后 设置 的 值 。 此 函数 的 其 他 部 分 使 用 的 $start 其 实 是 一 个 新 的 变量 一 
每 次 函数 调用 的 开始 ， 执 行 my 都 会 重新 设置 这 个 值 。 


问题 的 关键 就 在 于 ， 内 贱 代 码 中 的 my 变量 “锁定 ”( 用 术语 来 说 就 是 : HE bound) 在 具体 
的 my 变量 的 实例 中 ， 此 实例 在 正则 表达 式 编译 时 激活 。( 正 则 表达 式 的 编译 详 见 348 页 ) 
每 次 调用 checkoptimizer， 都 会 创造 一 个 新 的 Sscart 实例 ， 但 是 用 户 很 难以 察觉 ， 内 艇 
代码 中 的 $start 仍然 指向 之 前 的 值 。 这样, 函数 其 他 部 分 使 用 的 $start 实例 并 没有 接收 到 
正则 表达 式 中 传递 给 它 的 值 。 


这 种 类 型 的 实例 绑 定 称 为 “ 闭 包 (closure)”, Programming Perl 和 Object Oriented Perl 之 类 
的 书 中 介绍 了 这 种 特性 的 价值 所 在 。 关 于 闭 包 ，Perl 社 群 中 存在 争议 , 比如 本 例 中 闭 包 究 竟 
是 不 是 一 种 “特性 ”， 就 有 不 同 看 法 。 对 大 多 数 人 来 说 ， 这 很 难 理解 。 


解决 的 办 法 是 ， 不 要 在 正则 表达 式 内 部 引用 my 变量 ， 除 非 你 知道 正则 文字 的 编译 与 my K 
例 的 更 新 是 一 致 的 。 比 如 我 们 知道 ， 第 345 页 simpleconvert 子 程 序 中 使 用 的 my 变量 
SNestedStuffRegex 没有 这 个 问题 ， 因 为 SNestedStuffRegex 只 有 一 个 实例 。 这 里 的 my 
不 在 函数 或 者 循环 之 中 ， 所 以 它 只 会 在 脚本 载 人 时 创建 一 次 ， 然 后 一 直 存 在 ， 直 到 程序 终 
止 。 
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PAARKMEARE Sty 


Matching Nested Constructs with Embedded Code 


328 T HJFEIT ERE T int E FA 2h AS Pei cK DC Ae FE RE BER EEE Be), Rki, 这 都 是 最 简 
单 的 方法 ， 但 是 来 看 看 只 使 用 内 和 嵌 代 码 的 办 法 也 没 坏 处 ， 所 以 接 下 来 我 会 给 出 这 种 办 法 。 


办 法 很 简单 : 记录 已 经 遇 到 的 未 配对 开 括 号 的 数量 ， 只 有 此 数量 大 于 0 时 ， 才 容许 出 现 闭 
括号 。 在 匹配 文本 的 过 程 中 ， 我 们 使 用 内 嵌 代 码 来 计数 ， 不 过 在 这 之 前 必须 得 看 看 〈 目 前 
还 不 能 运行 的 ) 正则 表达 式 的 框架 。 


my S$NestedGuts = qr{ 
( ?> 


E 除 括 号 之 外 的 字符 
(*()]+ 
开 括 号 
\ ( 
闭 括号 
\) 
)* 

}x; 
为 了 保证 效率 ， 我 们 使 用 了 固化 分 组 ， 因 为 如 果 $Nestedcuts 用 于 更 大 的 正则 表达 式 ， 就 
可 能 导致 回 滴 ， 这 样 “([…]+1…)*, 就 会 造成 无 休止 匹配 (了 226)。 举 例 来 说 ， 如 果 我 们 将 
其 作为 'm/^\( $NestedGuts \)$/xJ 的 一 部 分 ， 应 用 到 “(this*ismissing*the'close?” 
中 ， 如 果 没 有 使 用 固化 分 组 ， 就 得 在 记录 和 回 诗 上 花费 漫长 的 时 间 。 


为 了 配合 计数 ， 我 们 需要 4 步 : 
O 计数 必须 从 0 开始 ; 
(?{ local $OpenParens = 0 }) 


© BATHS, MiicMe mM 1， 表 示 有 一 对 括号 没有 匹配 。 


(?{ $OpenParens++ }) 


© 过 到 闭 括号 ， 就 检查 记 数 器 ， 如 果 大 于 0， 就 减 去 1， 表 示 已 经 匹配 了 一 对 括号 。 如 果 
等 于 0， 就 停止 匹配 (因为 闲 括 号 与 开 括号 不 匹配 )， 所 以 用 '(?!) ,强迫 匹配 失败 。 


(?(?{ $OpenParens }) (?{ SOpenParens-- }) | (?!) ) 


这 里 使 用 了 (if then | else), 条 件 判断 (7140), FARES HIT ICR. EH 六 部 分 。 
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@ 一 旦 匹配 结束 就 检查 记 数 器 ， 确 保 它 等 于 0， 否则 说 明 仍 然 有 未 匹配 的 开 括号 ， 因 此 匹 
配 失败 。 


(?(?7{ S$OpenParens != 0 })(?!)) 
综合 起 来 就 得 到 ; 


my SNestedGuts = qr{ 
(?{ local $OpenParens = 0 }) # 各 计算 未 结束 的 开 括 号 的 数目 
(?> # 固化 分 组 ， 提 高 效率 


(?: 
E 除 括 号 以 外 的 字条 
L> ]+ 
# ”四 开 括 号 
i \( (?{ SOpenParens++ }) 
# 图 闭 括号 
| \) (?(?{ SOpenParens != 0 }) (?{ $OpenParens-- }) | (?!) ) 


\* 
) 
(?(?{ S$OpenParens != 0 })(?!)) # 加 如 果 还 有 开 括 号 ， 则 匹配 未 结束 


}x; 


这 段 程序 的 使 用 方法 与 第 330 页 的 SbevelN 完全 相同 。 


为 了 分 离 正则 表达 式 中 的 sopenParens 和 程序 中 可 能 出 现 的 其 他 全 局 变量 ， 这 里 使 用 了 
local, 但 local 的 用 法 与 之 前 的 不 同 , 这 里 不 需要 避免 回 滴 ， 因 为 正则 表达 式 使 用 了 固化 
分 组 ， 一 旦 某 个 多 选 分 支 能 够 匹配 ， 就 不 会 变 为 “交还 "。 这 样 ， 固 化 分 组 既 保 证 了 效率 ， 
又 保证 了 内 人 嵌 代 码 结构 附近 匹配 的 文本 不 会 在 回溯 中 交还 (这 样 SopenParens 就 与 实际 匹 
配 的 开 括号 数目 一 致 ) 。 


正则 文字 重 载 

Overloading Regex Literals 

通过 重 载 ， 用 户 可 以 通过 自己 喜欢 的 方式 预先 处 理 正则 文字 中 的 文字 部 分 。 下 面 几 节 给 出 
了 例子 。 


添加 单词 起 始 / 结 束 元 字符 
Perl 没有 提供 作为 单词 起 始 / 结 束 元 字符 的 \<! 和 ">, 可 能 是 因为 绝 大 多 数 情况 下 \bi 已 经 


够 用 了 。 不 过 ， 如 果 我 们 希望 使 用 这 两 个 元 字符 ， 我 们 可 以 通过 重 载 ， 将 表达 式 中 的 “\<* 
和 “\>” 分 别 替 换 为 '(?3<!\w) (?=\w) i 和 和 (2?<=\w) (?1!1\w) J。 
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先 创 建 一 个 国 数 ，MungeRegexLiteral， 进 行 需 要 的 预 处 理 : 


sub MungeRegexLiteral ($) 

{ 
my (S$RegexLiteral) = @_; # KAFE 
SRegexLiteral =~ s/\\</(?<!\\w) (?=\\w)/g; # 模拟 单词 起 始 边界 \< 
SRegexLiteral =~ e/\\>/(2?<=\\w) (?!\\w)/g; # 模拟 单词 结束 边界 \> 
return $RegexLiteral; # 返回 修改 后 的 字符 事 

} 


如 果 给 此 消 数 传递 字符 串 “…\<…" ， 它 会 将 其 转化 为 “…(?<!\w) (?=\w)… 。 记 住 ， 因 为 
replacement HIRUREI SFER, MAREA Aw ER w.e 


为 了 让 它 能 够 自动 处 理 正则 文字 的 每 个 文字 部 分 ， 我 们 将 其 存 人 文件 MyRegexStufpm, tt 
Perl ER: 


package MyRegexStuff; # 起 个 特殊 的 名 字 

use strict; # 这 是 个 好 习惯 

use warnings; # 这 也 是 个 好 习惯 

use overload; # BF Perl 的 重 载 机 制 

# #&A regex handler.... 

sub import { overload::constant qr => \&MungeRegexLiteral } 


sub MungeRegexLiteral ($) 

{ 
my ($RegexLiteral) = @_; # #RAFHS 
$RegexLiteral =~ s/\\</(?<!\\w)(?=\\w)/gq; # 模拟 单词 起 始 边界 \ < 
$RegexLiteral =~ s/\\>/(?<=\\w)(?!\\w)/q; # 模拟 单词 结束 边界 \> 
return $RegexLiteral; # 返回 修改 后 的 字符 事 

} 


1; # 标准 做 法 ，'use' 此 文件 肯定 会 返回 true 


将 MyRegexStuff.pm 放 在 Perl 的 库 路 径 (library path， 请 参考 Perl 文档 中 的 PERLLIB) F, 
所 有 需要 使 用 此 功能 的 Perl 脚本 都 可 调用 。 如 果 只 是 为 了 测试 ， 可 以 将 其 放 在 测试 脚本 同 
~ H KA , 这 样 调 用 : 

use lib '.'; # 在 当前 目录 中 寻找 库 文 件 

use MyRegexStuff; # 现在 可 以 使 用 此 功能 了 


Weems 


$text =~ s/\s+\</ /g; # 将 单词 之 前 任意 数目 任意 形式 的 空白 字符 将 挽 为 单个 空格 


每 个 需要 这 样 处 理 正 则 文字 的 程序 文件 都 必须 使 用 MyRegexStufF， 但 是 MyRegexStuff.pm 只 
需要 构建 一 次 (此 功能 在 MyRegexStuff.pm 内 部 不 可 用 ， 因 为 它 没 有 use MyRegexstuff 
一 一 我 们 肯定 不 会 这 样 做) 。 
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添加 占有 优先 量词 


我 们 继续 完善 MyRegexSruf.pm， 让 它 支持 占有 优先 量词 一 一 例如 'x++; (9142), HARE 
量词 的 作用 类 似 普 通 的 匹配 优先 量词 ， 只 是 它们 永远 不 会 释放 (也 就 是 “交还 ”) 任何 已 经 
匹配 的 内 容 。 用 固化 分 组 来 模拟 的 话 ， 只 需要 去 掉 最 后 的 “+'， 把 量词 修饰 的 所 有 内 容 放 
到 固化 分 组 里 ，regex*+! 就 成 了 '(?>regex*)! (173), 


占有 优先 量词 限定 的 部 分 可 以 是 括号 内 的 表达 式 ， 也 可 以 是 \wi 或 者 仆 x{1234)) 之 类 的 元 
序列 ， 或 是 普通 字符 。 要 处 理 所 有 情况 并 不 容易 ， 所 以 为 简便 起 见 ， 我 们 只 关注 作用 于 括 
号 的 ?+、*+ 和 ++。 有 了 330 页 的 sevelN， 我 们 可 以 把 这 段 程序 ; 


SRegexLiteral =~ s/( \{ SLevelN \)[*+?] )\+/(2>$1) /gx; 
添加 到 MungeRegexLiteral FAR, 


现在 ， 它 成 为 overload package 的 一 部 分 ， 我 们 可 以 在 正则 文字 中 使 用 占有 优先 量词 ， 例 如 
第 198 页 的 这 个 例子 : 


$text =~ Ss/"(\\,| [~"])*+"//; # 去掉 双 引 号 字符 事 


如 果 要 处 理 的 情况 不 只 是 括号 ， 就 要 复杂 很 多 ， 因 为 正则 表达 式 中 的 变数 很 多 ， 下 面 是 一 
种 尝试 : 
$RegexLiteral =~ st 
( 
# 匹配 可 能 的 限定 对 象 


(?: \\[\\abCdDefnrsStwWX] # \n, \wZ& 
\\c. # \cA 


| 
| \\x[(\da-fA-F] {1,2} # \xFF 
i \\x\{(\da-fA-F]*\} # \x{1234} 
| \\[pP]\{[^(})+\} # \p{Letter} 
| \[\]?[^]]+\] # Fie 
1 \\\W # \* 
| \( $LevelN \) # (e) 
| [^()*+?NN] # 其 他 任何 字条 
) 
# ,. .标准 量词 . . . 


(?: [x+?] | \{\d+(?:,\0*)?\} ) 
) 
\+ # ,. 和 量词 之 后 的 “+ 
}{(?>$1) }gx; 


这 个 表达 式 的 大 体形 式 和 之 前 一 样 :使 用 占有 优先 量词 匹配 一 些 内 容 ， 去 掉 最 后 的 “+"， 
将 整个 表达 式 用 (?>…) , 围 起 来 。 要 想 识别 Perl 正则 表达 式 的 复杂 语法 ， 这 样 还 很 不 够 。 
匹配 字符 组 的 部 分 吗 需 改进 ， 因 为 它 并 不 能 识别 字符 组 内 部 的 转 义 。 更 糟糕 的 是 ， 这 个 表 
达 式 的 基本 思路 有 问题 ， 因 为 它 不 能 完整 识别 Perl 的 正则 表达 式 。 比 如 ， 它 就 不 能 正确 处 
理 “\ (blah\)++” 中 作为 普通 字符 的 开 括 号 ， 而 是 认为 ++ 仅仅 限定 \) 1。 


www.TopSage.com 


344 #7. Perl 


解决 这 个 问题 得 花 许多 工夫 , 或 许 得 想 办 法 从 前 往 后 仔细 遍历 整个 正则 表达 式 (类 似 第 132 
页 的 补充 内 容 中 的 办 法 )。 我 本 来 希望 改善 处 理 字符 组 的 元 素 , 但 是 最 后 觉得 没 必 要 处 理 其 
他 复杂 情况 ， 原 因 有 两 个 。 第 一 个 是 ， 这 个 表达 式 能 应 付 大 部 分 正常 的 情况 ， 所 以 修正 处 
理 字符 组 的 元 素 就 能 满足 实用 要 求 了 。 更 重要 的 一 点 是 ， 目 前 Perl 的 正则 表达 式 重 载 有 严 
重 问题 ， 结 果 它 的 用 途 大 打折 扣 ， 讨 论 见 下 一 节 。 


正则 文字 重 载 的 问题 


Problems with Regex-Literal Overloading 


正则 文字 重 载 的 功能 非常 有 用 ， 至 少 在 理论 上 是 如 此 ， 不 幸 的 是 实际 情况 并 非 如 此 。 问 题 
在 于 , 它 只 对 正则 文字 中 的 文字 部 分 有 效 ,而 不 会 影响 插值 部 分 。 例 如 ,在 m/ ($MyStuff)*+/ 
中 MungeRegexLiteral 函数 调用 了 两 次 ， 一 次 是 在 变量 插值 之 前 (“(”) ， 另 一 次 是 插值 
之 后 (“)*+”) 。( 它 永远 不 会 影响 SMyscuff 的 值 )。 因 为 重 载 必须 同时 找到 两 个 部 分 ， 而 
插入 的 值 又 是 不 确定 的 ， 所 以 实际 上 重 载 不 会 生效 。 


对 之 前 添加 的 \< 和 \> 来 说 ， 这 不 是 个 问题 ， 因 为 变量 替换 不 太 可 能 把 它们 切 段 。 但 是 因为 
重 载 不 会 影响 插值 变量 ， 包 含 “\<” 或 “>” 的 字符 串 或 regex 对 象 就 不 会 受 重 载 影响 。 上 
一 节 已 经 提 到 ， 如 果 由 重 载 来 处 理 正 则 文字 ， 就 很 难 每 次 都 保证 完整 性 和 准确 性 。 即 使 是 
与 \> 一 样 简单 也 会 出 问题 ， 例 如 “\\>' ， 它 表示 反 斜 线 八 ” 之 后 紧 跟 尖 括 号 “> 。 


另 一 个 问题 是 ， 重 载 不 知道 正则 表达 式 所 使 用 的 修饰 符 。 表 达 式 是 否 使 用 了 /x 是 很 重要 的 
问题 ， 但 重 载 没有 确切 的 办 法 知道 。 


最 后 还 必须 指出 ， 使 用 重 载 会 禁止 根据 Unicode 命名 指定 字符 的 功能 ('\N(name}; 7290), 


模拟 命名 捕获 


Mimicking Named Capture 


讲 完 了 重 载 的 不 便 之 后 , 我 们 来 看 看 综合 了 许多 特殊 结构 的 复杂 例子 。Perl 没有 提供 命名 捕 
获 (7138) 的 功能 , 但 是 我 们 可 以 使 用 捕获 型 括号 和 $^N 变量 (7301) 来 模拟 ， 这 个 变量 
引用 的 是 最 近 结束 的 捕获 型 括号 匹配 的 内 容 (现在 我 假扮 Perl FRAR, 使 用 $^N, 特意 为 
Perl 增加 命名 捕获 的 功能 ) 。 


til 
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来 看 个 简单 的 例子 : 

‘href\s*=\s* ($HtctpUrl) (?{ $url = $^N })) 
这 里 使 用 了 303 页 的 regex Ssucctpurl, Pm ERA EY, HESHttpUrl 匹配 
的 内 容 保存 到 $url 中 。 在 这 里 用 $^N 取代 $1 似乎 有 些 多 此 一 举 , 甚至 不 必要 使 用 内 徐 代 码 ， 


因为 在 匹配 之 后 使 用 $1 更 加 方便 。 但 是 如 果 把 其 中 一 部 分 封装 到 regex 对 象 ， 然 后 多 次 使 
用 : 


my $SaveUrl = aqr{ 


($SHttpUr1) # 匹配 HTTP URL... 
(?{ $url = S^N }) # .. .保存 到 $url 
}x; 
Stext =~ m{ 


http \s*=\s* ($SaveUrl) 
| src \s*=\s* ($SaveUr1) 
}xi; 
无 论 sSHtcpUrl 是 怎么 匹配 的 ，$url 都 会 被 设置 为 URL。 在 这 个 简单 应 用 中 可 以 使 用 其 他 
办 法 (例如 $+ 变量 301)，, 但 是 在 更 复杂 的 情况 中 ，$saveurl 之 外 的 办 法 更 难 维护 ， 所 以 
将 它 保存 到 命名 变量 中 方便 得 多 。 


这 里 有 一 个 问题 ， 如 果 设 定 Surl 的 结构 在 回 滴 中 被 “交还 ”, 已 设 定 的 值 却 不 会 “撤销 保存 
(unwritten)”。 所 以 要 在 初始 匹配 时 修改 本 地 化 的 临时 变量 , 只 有 在 整体 匹配 真正 确认 之 后 
才 保 存 “ 真 正 ” 的 变量 ， 就 像 第 338 页 的 例子 一 样 。 


下 面 给 出 了 一 种 解决 办 法 。 从 用 户 的 角度 来 看 , 在 '(?<Num>\a+) 之后, "a+ 匹配 的 数值 仍 
然 可 以 以 S^N{Num} 访 问 。 尽 管 未 来 版 本 的 Perl 可 能 会 把 s^N 转换 为 某 种 特殊 的 系统 变量 ， 
现在 仍然 不 是 特殊 的 ， 所 以 我 们 可 以 随意 使 用 。 


我 们 可 以 使 用 sNamedcapture 之 类 的 名 字 , 但 选择 $^N 是 有 理由 的 。 之 一 是 它 类 似 $^N。 另 
一 个 理由 是 ， 如 果 写 明了 use strict， 它 不 需要 预 声明 。 最 后 ， 我 希望 Pel 最 终 会 内 建 对 
命名 捕获 的 支持 ， 所 以 我 认为 s^N 是 个 好 办 法 。 如 果 果 真如 此 ，%^N 就 能 够 和 正则 表达 式 的 
其 他 变量 (299) 一 样 ， 自 动 使 用 动态 作用 域 。 但 是 目前 ， 它 只 是 普通 的 全 局 变量 ， 所 以 
不 会 自动 使 用 动态 作用 域 。 


当然 ， 即 便 是 这 个 程序 也 会 出 现 正则 文字 重 载 的 办 法 所 具有 的 问题 ， 例 如 不 能 处 理 插值 变 
量 。 


fl 
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模拟 命名 捕获 


package MyRegexStuff; 

use strict; 

use Warnings; 

use overload; 

sub import { overload::constant('qr' => \&MungeRegexLiteral) } 


my $NestedStuffRegex; # 在 自身 定义 中 使 用 ， 必 须 预 声明 
$NestedStuffRegex = qr{ 
{?> 
(?: # 非 括号 非 转 义 的 字符 ... 
[*C) \#N\\) 4+ 
# SX FH... 
i (?s: \\. ) 
# 正则 表达 式 注 释 ... 
| 和 #.*\n 
# Pewee... 
| \{ (??{ S$SNestedStuffRegex }) \) 
)* 
) 
}x; A 
sub SimpleConvert ($); # 递归 调用 ， 必 须 预 声明 
sub SimpleConvert ($) 
{ 
my Sre = shift; # 要 处 理 的 表达 式 
Sre =~ s{ 
VE 
< ( (?>\w+) ) > # <$1 > $1 是 标识 符 
( $NestedStuffRegex ) # $2 - 可 能 出 现 的 炭 塞 结构 
\) 7" )}* 
}{ 
my $id = $1; 
my $guts = SimpleConvert ($2); 
把 
(?<id>guts) 
改 为 
(?: (guts) # 配 guts 
(2?{ 
local($*N{$id}) = Sguts # 保存 $^T 中 的 本 地 化 元 素 
}) 
) 
"(?:(S$guts) (?{ local(\S*T{'Sid'}) = \$^N }))" 
}xeog; 
return Sre; # 返回 处 理 结 果 
} 


w gt +e Se 1 + +H +H 


sub MungeRegexLiteral ($) 
{ 
my ($RegexLiteral) = @_; # SRAFHS 
# print “BEFORE: $RegexLiteral\n"; # 调试 时 取消 注释 
my Snew = SimpleConvert ($RegexLiteral); 
if {Snew ne $RegexLiteral) 





iti 
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my Shefore = q/(?{ local(%*T) = () })/; # 本 地 化 临时 hash 变量 
my Safter = q/(?{ %*N = $^T ))/; # 把 它们 拷贝 到 "真正 的 "hash 变量 


$RegexLiteral = "$before(?:$new)$after"; 
} 
# print "AFTER: $RegexLiteral\n"; # 调试 时 取消 注释 
return $RegexLiteral; 
1. 


1 f 





效率 


Perl Efficiency Issues 


在 大 多 数 情况 下 ，Perl 中 正则 表达 式 的 效率 问题 与 任何 使 用 传统 NFA 的 工具 一 样 。 第 6 章 
介绍 的 技巧 一 一 内 部 优化 、 消 除 循环 ， 以 及 “开动 你 的 大 脑 ”"， 都 适用 于 Perl, 


当然 ， Perl 也 有 专属 于 自己 的 问题 ， 这 一 节 我 们 就 来 看 看 : 


办 法 不 止 一 种 Perl 就 像 一 个 工具 箱 ， 同 一 种 问题 可 以 用 许多 办 法 来 解决 。 理 解 了 Perl 
的 思维 方式 ， 就 会 明白 哪些 问题 是 钉子 ， 但 是 选择 合适 的 锤子 还 需要 花 很 多 工夫 来 编 
写 高 效 而 易于 理解 的 程序 。 有 时 候 ， 效 率 和 易于 理解 似乎 是 不 相 容 的 ， 不 过 一 旦 理解 
深入 了 ， 就 能 做 出 更 好 的 选择 。 


表达 式 编译 、ar/…/、/o 修饰 符 和 效率 正则 运算 符 的 编译 和 插值 ， 做 得 好 的 话 能 节 
省 大 量 的 时 间 。/o 修饰 符 还 没有 详细 讲解 ， 它 配合 regex 对 象 (ar/…/)， 能 够 调控 耗 
费时 间 的 重 编译 过 程 。 


$& 的 负面 影响 伴随 效应 设 定 的 变量 $$*、$&g 和 $'， 也 许 很 方便 ， 但 存在 不 易 发 现 的 效率 
陷阱 ， 哪 怕 只 出 现 了 一 次 ， 也 可 能 带 来 麻烦 。 所 以 并 不 是 非得 使 用 它们 一 一 只 要 脚本 
中 出 现 了 任意 一 个 变量 ， 负 面 影响 就 不 可 避免。 


Study Be 近年 来 ，Perl 提供 了 study (…) 函数 。 按 照 预期 ， 它 能 提高 正则 表达 式 的 
速度 ， 但 是 似乎 没有 人 真正 知道 它 是 否 能 提高 速度 ， 以 及 背后 的 原因 。 


性 能 测试 性 能 测试 的 规矩 就 是 ， 越 快 的 程序 终止 得 越 早 你 可 以 引用 我 的 话 )。 无 论 
小 型 函数 、 大 型 函数 ， 还 是 处 理 真实 数据 的 整个 程序 ， 性 能 测试 都 是 判断 速度 的 最 终 
标准 。 尽 管 性 能 测试 有 各 种 各 样 的 办 法 ，Perl 中 的 性 能 测试 却 是 简单 而 轻松 的 。 我 会 
给 出 我 用 的 办 法 ， 这 个 办 法 在 写作 本 书 时 做 过 数 百 次 性 能 测试 。 


正则 表达 式 调试 Perl 的 正则 表达 式 调试 标识 位 (debug flag) 可 以 告诉 我 们 ,正则 引擎 
和 传动 装置 对 正则 表达 式 进 行 了 哪些 优化 。 下 面 会 讲解 如 何 查 看 这 些 信息 ， 以 及 Perl 
包含 了 哪些 秘密 。 


if 
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办 法 不 只 一 种 


“Theres More Than One Way to Do It” 


通常 ， 一 个 同 题 总 是 有 许多 种 解法 ， 所 以 在 权衡 效率 和 可 读 性 时 ， 应 该 做 的 就 是 了 解 所 有 
的 办 法 。 来 看 个 简单 的 问题 ,修改 一 个 IP 地址 ,例如 “18.181.0.24', 保证 每 一 段 都 包含 
三 位 数字 : “018.181.000.024'。 简 单 的 办 法 是 : 


Sip = sprintf ("%03d.%03d.%03d.%03d", split(/\./, $ip)); 


这 办 法 当然 没 错 , 但 显然 还 有 其 他 的 解决 办 法 。 表 7-6 列 出 了 好 几 种 办 法 ， 比 较 了 它们 的 效 
R (按照 效率 排序 ， 最 上 面 的 效率 最 高 )。 这 个 例子 的 目的 很 简单 ， 本 身 也 没有 太 多 价值 ， 
但 是 它 能 代表 简单 的 文本 处 理 任务 ， 所 以 我 鼓励 你 花 一 点 时 间 理 解 各 种 办 法 。 可 能 有 些 技 
巧 你 没 匈 过 。 


如 果 输 入 格式 正确 的 下， 每 个 办 法 都 能 到 正确 的 结果 ， 但 是 如 果 输 入 别 的 数据 则 可 能 会 出 
错 。 如 果 数 据 是 不 规范 的 ， 可 能 就 需要 多 花 点 心思 。 除 此 之 外 ， 实 际 差别 在 于 效率 和 可 读 
性 。 就 可 读 性 而 言 ，#1 和 #13 似乎 是 最 好 理解 的 (尽管 效率 上 存在 巨大 的 差异 )。 同 样 易于 
理解 的 是 #3 和 #4 (类似 #1)， 以 及 #8 (类 似 #13)。 其 他 解法 都 太 过 复杂 了 。 


那么 效率 呢 ? 为 什么 不 同 的 解法 有 不 同 的 效率 ? 原因 在 于 NFA 的 工作 原理 (第 4 章 )，Perl 
的 各 种 正则 优化 措施 (第 6 章 )， 以 及 其 他 Perl 结构 的 处 理 速度 (例如 sprintf, 以 及 
substitution 运算 符 的 机 制 )。substitution 运算 符 的 /e 修饰 符 ， 有 时 候 虽 然 不 可 或 缺 ， 但 效率 
低 的 解法 似乎 都 使 用 了 它 。 


比较 #3 和 #4，#8 和 #14 很 有 意义 。 这 两 对 正则 表达 式 的 区 别 只 是 在 于 括号 一 一 没有 括号 的 
表达 式 要 比 有 括号 的 稍 快 一 点 。#8 使 用 ss 来 避免 括号 带 来 的 高 昂 代 价 PERE MIRAI CHE 
现 这 一 点 (7355), 


表达 式 编译 、/o 修饰 符 、qr/…/ 和 效率 


Regex Compilation, the fo Modifier, qi /, and Efficiency 


Perl 中 与 表达 式 效 率 相关 的 另 一 个 重点 是 , 程序 遇 到 正则 运算 符 之 后 , 在 实际 应 用 正则 表达 
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表 7-6: 填补 IP 地 址 的 若干 解法 
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$ip = sprintf ("%03d.%03d.%03d.%03d", split(m/\./, 
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substr ($ip, 
substr ($ip, 
substr ($ip, 
substr ($ip, 
substr ($ip, 
substr ($ip, 
substr ($ip, 


$ip = sprintf ("%03d.%03d.%03d.%03d", 


Sip = sprintf ("%03d.%03d.%03d.%03d", 


0 
0 
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4 
8 
8 
1 


r 
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’ 
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0) = 
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0) 
0) 
0) 
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= "p: 


0) 


"g? 
‘9° 


"o" 


10" 


if 
if 
if 
if 
if 
if 


substr ($ip, 
substr ($ip, 
substr ($ip, 
substr ($ip, 
substr ($ip, 


b $) 
zs 1) 
e 1) 
6, 1) 
9,. 1) 


substr($ip,10, 1) 


$ip = sprintf ("%03d.%03d.%03d.%03d", 


$ip =~ m/*(\d+)\. (\d+)\. (\d+)\. (\d+)$/); 


Sip =~ s/\b(?=\d\b)/00/g; 
Sip =~ s/\b(?=\d\d\b) /0/g; 


$ip =~ s/\b(\d(\d?)\b)7$2 eq '' 


$ip =~ s/\d+/sprintf("%03d", $&)/eg; 


Sip =~ s/(?:(?<=\.)1%) (?=\d\b) /00/g; 
$ip =~ s/(?:(?<=\.)1*) (?=\d\d\b) /0/g; 


$ip =~ s/\b(\d\d?\b)/'0' 


x (3-length($1) ) 


$ip =~ s/\b(\d\b) /00$1/g; 
$ip =~ s/\b(\d\d\b) /0$1/g; 


$ip =~ s/\b(\d\d?\b) /sprintf("%03d", 


$ip =~ s/\b(\d{1,2}\b)/sprintf£("%03d", 


$ip =~ s/(\d+)/sprintf£("%03d", $1)/eg; 


? *00$1* 


= '0' while length(S$ip) < 


$1) /eg; 


eq '. 
eq '. 
eq '. 
eq '. 
eq '. 
eq '. 


15; 


$ip =~ m/\d+/g); 


Sip =~ m/(\d+)/q); 


"0$1"/eg; 


- $l1/eg; 


$1) /eg; 


$ip =~ s/\b(\d\d?(?!\d))/sprintf£("%03d", $1) /eg; 
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$ip =~ s/(?:(2?<=\.) 1^) (\d\d?(?!\d))/sprint£("%03d", $1)/eg; 


FCAT, Perl 必须 在 幕后 进行 预 处 理工 作 。 真 正 的 准备 工作 依赖 于 正则 运算 元 的 类 型 。 在 大 多 
数 情 况 下 ,正则 运算 元 是 正则 文字 ， 例 如 m/…/、s/…/…/ 或 sr/…/。Perl 必须 对 它们 进行 
幕后 处 理 ， 而 处 理 需 要 的 时 间 ， 如 果 可 能 应 该 尽力 避免 。 首 先 ， 让 我 们 来 看 要 做 的 事情 ， 

然后 讲解 如 何 避 免 。 
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预 处 理 正 则 表达 式 的 内 部 机 制 


预 处 理 正则 运算 元 的 机 制 在 第 6 章 有 所 涉及 (241)， 不 过 Perl 还 有 自己 的 处 理 。 
Perl 对 正则 运算 符 的 预 处 理 大 致 分 为 两 步 : 


1. 正则 文字 处 理 如 果 运 算 符 是 正则 文字 ， 就 按照 “正则 文字 的 解析 方式 ”(292) 中 的 描 
述 来 处 理 。 变 量 插值 就 发 生 在 这 一 步 。 


2. 正则 编译 检查 正则 表达 式 ， 如 果 符 合 规则 ,就 将 其 编译 为 适用 于 正则 引擎 实际 应 用 的 内 
在 状态 〈 如 果 不 符合 规则 ， 则 报错 )。 


正则 表达 式 编 译 完成 之 后 ， 就 能 够 实际 应 用 到 目标 字符 串 中 ， 参 见 第 4 到 第 6 章 。 


并 不 是 每 使 用 一 次 正则 运算 符 ， 就 需要 进行 一 次 预 处 理 。 但 是 正则 文字 第 一 次 使 用 时 ， 必 
须 进 行 预 处 理 ， 但 如 果 多 次 执行 同样 的 正则 文字 (例如 在 循环 中 ， 或 是 调用 多 次 的 函数 )， 
Perl 有 时 候 能 够 重用 之 前 的 工作 。 下 一 节 说 明了 Perl 如 何 做 到 这 一 点 ， 以 及 程序 员 可 以 使 
用 的 提高 效率 的 技巧 。 


减少 正则 编译 的 步骤 


下 面 几 节 中 我 们 会 见 到 Perl 避免 某 些 正则 文字 相关 预 处理 的 两 种 办 法 : 无 条 件 缓存 
(unconditional caching) 和 按 需 重 编译 (on-demand recompilation), 


无 条 件 缓存 


如 果 正 则 文字 中 没有 插值 变量 , Pel 就 知道 这 个 正则 表达 式 在 两 次 应 用 之 间 不 会 变化 , 所 以 
第 一 次 编译 完成 之 后 ， 会 保存 编译 的 形式 (“缓存 ")， 以 备 将 来 使 用 。 无 论 正则 表达 式 会 执 
行 多 少 次 ， 只 需要 检查 和 编译 一 次 。 本 书 中 的 大 多 数 正则 表达 式 都 没有 变量 插值 ， 因 此 从 
这 个 方面 来 说 效率 无 可 挑剔 。 


内 嵌 代 码 和 动态 正则 结构 中 的 变量 则 不 属于 此 类 ， 因 为 它们 不 会 插值 到 正则 表达 式 中 ， 而 
是 作为 正则 表达 式 执行 的 固定 代码 的 一 部 分 。 有 时 候 ， 你 可 能 希望 每 次 执行 都 解释 内 人 嵌 代 
码 中 引用 的 my 变量 ， 请 不 要 忘记 第 338 页 的 忠告 。 


有 一 点 要 说 清楚 ， 缓 存 的 持续 时 间 与 代码 的 执行 时 间 相 同 ， 下 次 运行 同样 代码 时 不 会 有 任 
何 的 缓存 。 
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按 需 重 编译 


并 不 是 所 有 的 正则 运算 元 都 能 够 直接 缓存 ， 比 如 下 面 的 代码 : 


my $today = (qw<Sun Mon Tue Wed Thu Fri Sat>)[(localtime)[6]]; 
# Stoday 保存 的 是 星期 数 ("Mon"， "Tue" 之 类 ) 


while (<LOGFILE>) { 
if (m/*$today:/i) I 
m/^$today:/ 中 的 正则 表达 式 需 要 插值 ， 虽 然 在 循环 中 使 用 ， 但 每 轮 循环 的 插值 结构 是 相 
同 的 。 所 以 一 再 重复 编译 同样 的 表达 式 的 效率 很 低 ， 所 以 Perl 会 自动 进行 简单 的 字符 串 检 
查 ， 比 较 本 次 和 上 次 插值 的 结果 。 如 果 相 同 ， 就 使 用 上 次 的 缓存 。 如 果 不 同 ， 就 重新 编译 
正则 表达 式 。 所 以 ， 对 比 缓存 值 并 重新 插值 尽 可 能 避免 了 相对 更 耗 时 的 编译 。 


这 样 究竟 能 节省 多 少时 间 呢 ?非常 多 。 举 例 来 说 ， 我 油 试 了 第 303 页 的 SHttpurl (使 用 扩 
展 的 SHostnameRegex) 的 三 种 预 处 理 方 式 。 设 计 的 性 能 测试 能 准确 体现 预 处 理 的 开销 (使 
用 插值 、 字 符 串 检查 、 编 译 ， 以 及 其 他 后 台 任 务 ) ， 而 不 是 表达 式 应 用 的 整体 开销 ， 因 为 在 
任何 情况 下 这 种 应 用 的 时 间 都 是 一 样 的 。 


结果 非常 有 意思 。 我 运行 了 没有 插值 的 版 本 (整个 正则 表达 式 都 硬 编码 在 m/…/ 中 )， 用 它 
作为 比较 的 基础 。 如 果 正 则 表达 式 每 轮 循环 不 会 改变 ， 比 较 并 插值 大 概 需要 25 倍 的 时 间 。 
完整 的 预 处 理 〈 每 轮 循环 都 要 重新 编译 ) 大 概 需要 1 000 倍 的 时 间 ， 这 数字 真 惊人 ! 


应 用 到 实际 场合 就 会 发 现 , 完整 的 预 处 理 即 使 比 静态 正则 文字 预 处 理 要 慢 1 000 倍 , 在 我 的 
机 器 上 也 只 需要 大 约 0.000 26 秒 (测试 的 速度 是 每 秒 3 846 te, 相反， 静态 正则 文字 预 处 理 
的 速度 是 每 秒 370 万 次 )。 当 然 ， 不 使 用 插值 能 够 节省 的 时 间 非 常 可 观 ， 不 进行 重 编译 节省 
的 时 间 显然 也 很 可 观 。 下 面 几 节 ， 我 们 会 考察 如 何在 更 多 情况 下 使 用 这 些 技巧 。 
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表示 “一 次 性 编译 ”的 /o 修饰 符 


简单 地 说 ， 如 果 正 则 文字 运算 元 中 使 用 了 /o 修饰 符 ， 它 就 会 只 会 检查 和 编译 一 次 ， 而 无 论 
是 否 包 含 插值 。 如 果 没 有 插值 ， 添 加 /o 不 会 有 任何 改变 ， 因 为 没有 插值 的 表达 式 总 是 会 自 
动 缓存 。 但 如 果 使 用 了 插值 ， 程 序 执行 第 一 次 遇 到 正则 文字 时 ， 会 进行 正常 的 完整 的 预 处 
理 ， 但 因为 /e 的 存在 ， 内 在 状态 会 存储 下 来 。 如 果 之 后 又 遇 到 这 个 正则 运算 元 ， 就 会 直接 
调用 缓存 。 


下 面 这 个 例子 之 前 也 出 现 过 ， 只 是 现在 添加 了 /o: 
my S$today = (qw<Sun Mon Tue Wed Thu Fri Sat>)[({(localtime) [6]]; 


while (<LOGFILE>) { 
if (m/*S$today:/io) { 
这 个 表达 式 要 快 得 多 ， 因 为 从 第 二 次 开始 的 每 轮 循 环 中 ， 正 则 表达 式 都 忽略 了 S$coday。 不 
需要 插值 ， 也 不 需要 预 处 理 和 重新 编译 正则 表达 式 ， 能 够 节省 大 量 的 时 间 ， 而 这 是 Perl 无 
法 自动 完成 的 ， 因 为 使 用 了 变量 插值 ，$today 可 能 会 变化 ， 所 以 为 了 安全 ，Perl 必须 每 次 
都 检查 。 使 用 /o 就 告诉 Perl， 在 第 一 次 预 处 理 和 编译 完成 之 后 “锁定 ”这 个 表达 式 。 因 为 
我 们 知道 ， 插 值 变 量 是 不 变 的 ， 即 使 变化 了 ， 也 不 希望 使 用 新 值 ， 所 以 这 样 做 完全 没 问题 。 


/o 的 潜在 “陷阱 


在 使 用 /o 时 ， 有 个 重要 的 “陷阱 ”必须 要 注意 。 例 如 下 面 这 个 函数 : 
sub CheckLogfileForToday () 
{ 
my S$today = (qw<Sun Mon Tue Wed Thu Fri Sat>)[(localtime) [6] ]; 


while (<LOGFILE>) { 
if (m/*Stoday:/io) { # aait jo 


aeons 


} 
} 
记 住 ，/o 表示 正则 运算 元 只 需要 编译 一 次 。 第 一 次 调用 checkLogfileForToday () 时 ， 代 
表 当 天 日 期 的 正则 运算 元 就 锁定 在 其 中 。 如果 过 了 一 段 时 间 再 次 调用 这 个 函数 ,即使 secoday 
变化 了 ， 也 不 会 重新 检查 ， 在 程序 执行 过 程 中 ， 每 次 使 用 的 都 是 最 开始 锁定 在 其 中 的 正则 
表达 式 。 


ill 
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这 个 问题 很 严重 ， 不 过 下 一 节 中 ，regex 对 象 提供 了 两 全 其 美的 解决 办 法 。 


用 regex 对 象 提 高 效率 


迄今 为 止 ， 我 们 看 到 的 所 有 关于 预 处 理 的 讨论 都 适用 于 正则 文字 。 其 目的 在 于 花 尽 可 能 少 
的 工夫 获得 编译 好 的 正则 表达 式 。 达 到 此 目的 的 另 一 个 办 法 是 使 用 regex 对 象 ， 把 编译 好 的 
正则 表达 式 封装 在 变量 内 部 供 程序 使 用 。 可 以 使 用 ar/…/ 创 建 regex 对 象 (7303), 


下 面 是 使 用 regex 对 象 的 例子 : 


sub CheckLogfileForToday () 
{ 
my Stoday = (qw<Sun Mon Tue Wed Thu Fri Sat>)[(localtime) [6]]; 


my $RegexObj = qr/*$today:/i; # 每 次 调用 编译 一 次 


while (<LOGFILE>) { 
if ($_ =~ §$RegexObj) { 


eat 


} 
} 
} 


每 调用 一 次 函数 ， 就 会 创建 一 个 新 的 regex 对 象 ， 但 是 之 后 它 只 是 直接 用 于 log 文件 的 每 一 
行 。 如 果 regex 对 象 用 做 运算 元 ， 它 不 会 进行 前 面 介 绍 的 任何 预 处 理 。 预 处 理 是 在 regex 对 
象 创建 而 不 是 使 用 时 进行 的 。 可 以 把 regex 对 象 想象 为 “自动 设 定 的 正则 缓存 ”"， 这 个 编译 
好 的 表达 式 可 以 在 任何 地 方 使 用 。 


这 个 办 法 兼 具 了 两 方面 的 优点 : 它 效率 高 ,， 因为 只 有 在 每 次 函数 调用 (而 不 是 log 文件 的 每 
一 行 ) 时 才 会 编译 ， 但 是 ， 与 之 前 错误 使 用 /o 的 例子 不 同 ， 即 使 多 次 调用 CheckLogfile- 
ForToday () ， 也 没有 问题 。 


需要 和 弄 清 楚 的 是 ,这 个 例子 中 出 现 了 两 个 正则 运算 元 。 正 则 运算 元 ar/…/ 并 不 是 一 个 regex 
对 象 ， 但 能 从 接收 的 正则 文字 创建 regex 对 象 。 然 后 这 个 对 象 用 作 循环 中 match 运算 符 =~ 
的 运算 元 。 


regex 对 象 配合 m/…/ 
这 段 程序 : 

if ($_ =~ $RegexObj) { 
也 可 以 这 样 写 : 


if (m/$RegexObj/) { 


L 
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此 时 已 经 不 是 普通 的 正则 文字 了 ， 尽 管 看 上 去 没有 区 别 。“ 正 则 文字 ”的 内 容 就 是 regex 对 
象 ， 它 与 直接 使 用 regex 对 象 一 样 。 这 种 做 法 的 好 处 在 于 : m/…/ 更 为 常见 ， 更 容易 使 用 。 
也 不 用 明确 指定 目标 字符 串 $_， 方 便 与 其 他 使 用 同样 默认 变量 的 运算 符 结合 。 最 后 一 个 原 
因 是 ， 这 样 我 们 能 够 对 regex 对 象 使 用 /g。 


/o 配合 qr/*…/ 


/o 修饰 符 可 以 配合 qr/…/，, 但 在 这 里 你 肯定 不 希望 如 此 。 就 像 用 /o 配合 其 他 任何 正则 运算 
符 一 样 , qr/…/o 在 第 一 次 使 用 正则 表达 式 时 就 会 进行 锁定 , 所 以 如 果 这 样 写 , 无 论 scoday 
如 何 变化 ,每 次 调用 这 个 函数 SRegexobj 使 用 的 都 是 同样 的 regex 对 象 。 这 与 第 352 页 的 
m/…/o 的 问题 一 样 。 


依靠 默认 表达 式 提高 效率 


正则 运算 符 的 默认 表达 式 (7308) 可 以 提高 效率 ， 尽 管 使 用 regex 对 象 可 能 更 划算 。 不 过 
我 还 是 会 简要 介绍 一 番 。 例 如 : 
sub CheckLogfileForToday () 
{ 
my Stoday = (qw<Sun Mon Tue Wed Thu Fri Sat>)[(localtime) [6}}; 


# 直到 匹配 为 止 ， 设 置 默 认 表 达 式 


Sun:" =~ m/*Stoday:/i or 
"Mon:" =~ m/*S$today:/i or 
"Tue:" =~ m/*$today:/i or 
"Wed:" =~ m/*$today:/i or 
“Thu:* =~ m/*$today:/i or 
“Fri:" =~ m/*S$today:/i or 
"Sat:" =~ m/*$today:/i; 


while (<LOGFILE>) { 
if (m//) { # 使 用 默认 的 表达 式 


serere 


} 
} 
} 


使 用 默认 正则 表达 式 的 关键 在 于 ， 只 有 匹配 成 功 才 会 设置 默认 值 ， 所 以 Stoday 设置 之 后 还 
有 长 长 的 代码 。 你 已 经 看 到 ， 这 相当 不 美观 ， 所 以 我 不 推荐 这 么 做 。 
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理解 “原文 ”副本 


Understanding the “Pre-Match” Copy 


在 匹配 和 替换 时 ，Perl 有 时 必须 动用 额外 的 空间 和 时 间 来 保存 目标 字符 串 在 匹配 之 前 的 副 
本 。 我 们 会 看 到 ， 有 时 这 个 副本 会 用 于 支持 重要 特性 ， 有 时 则 不 会 。 应 该 尽量 避免 不 会 用 
到 的 副本 ， 提 高 效率 ， 尤 其 是 在 目标 字符 串 很 长 ， 或 者 速度 非常 重要 的 情况 下 更 是 如 此 。 


下 一 节 我 们 会 讲解 何 时 以 及 为 什么 Pel 可 能 会 保存 目标 字符 串 的 原文 副本 ， 什 么 时 候 用 到 
副本 ， 以 及 在 效率 极端 重要 时 ， 如 何 取消 这 个 副本 来 提高 效率 。 


通过 原文 副本 支持 $1、S$&、S$'、S+t* 


对 于 match 或 者 substitution 操作 的 目标 字符 申 ，Perl 会 生成 一 个 原文 副本 、 以 支持 $1、$& 
之 类 匹配 后 的 变量 (7299), 每 次 匹配 完成 之 后 ，Perl 不 会 实际 生成 这 些 变 量 ， 因 为 许多 变 
量 (还 有 可 能 是 所 有 ) 根本 不 会 被 程序 用 到 。 相 反 ，Perl 只 是 保存 原始 字符 串 的 副本 ， 记 件 
各 种 匹配 发 生 在 原来 文本 中 的 位 置 , 在 使 用 $1 之 类 变量 时 通过 位 置 来 引用 。 这 种 办 法 不 错 ， 
工作 量 小 , 因为 多 数 情况 下 都 不 会 用 到 某 些 甚 至 全 部 的 匹配 后 的 变量 。 这 种 “延迟 求 值 (lazy 
evaluation)” 能 避免 许多 不 必要 的 工作 。 


尽管 延迟 创建 $1 之 类 的 变量 能 够 节省 工作 量 ， 但 保存 目标 字符 串 的 副本 仍然 需要 成 本 。 而 
这 是 必要 的 吗 ? 为 什么 不 能 直接 使 用 原来 的 文本 ? FSX: 
SSubject =~ s/*(?:Re:\s*)+//; 


这 样 ，$& 正 确 地 引用 了 $subject 中 删除 的 文本 ， 但 因为 它 已 经 从 $Subject 中 删除 ， 在 后 
面 用 到 $s 时 ，Perl 不 能 从 $subject 中 引用 这 段 文本 。 下 面 的 代码 情况 相同 ; 
if ($Subject =~ m/*SPAM:(.+)/i) { 
$Subject = "-- spam subject removed --"; 


$SpamCount {$1}4++; 
} 


引用 $1 时 ， 原 来 的 SSsubject CAMRY. ATLA, Perl 必须 保存 原文 副本 。 


原文 副本 并 非 时 时 必须 


在 实践 中 ， 原 文 副本 的 主要 “用 户 ” 是 $1、$2、$3 之 类 的 变量 。 但 是 如 果 正 则 表达 式 不 包 


L 


www.TopSage.com 


356 第 7 章 : Perl 


含 捕获 型 括号 呢 ? 那样 就 不 必 担 心 $S1 之 类 了 , 所 以 完全 不 必 考 虑 如 何 支 持 它们 。 所 以 至 少 ， 
不 包含 捕获 型 括号 的 正则 表达 式 可 以 不 必 保 存 拷贝 ? 答案 是 未 必 。 


不 宜 使 用 的 变量 sg 和 s 


$'、$&、$' 这 三 个 变量 与 捕获 型 括号 无 关 。 它 们 分 别 对 应 到 匹配 文本 之 前 的 部 分 ， 匹 配 文本 
和 匹配 之 后 的 部 分 ， 其 实 可 以 应 用 于 每 一 次 match 和 substitution, Perl 不 能 预先 知道 某 个 匹 
配 中 是 否 会 用 到 这 些 变量 ， 所 以 每 次 都 必须 保存 原文 副本 。 


听 起 来 ， 似 乎 没有 办 法 省 略 副本 ， 但 是 Pen 足够 聪明 ， 它 能 够 认识 到 ， 如 果 这 些 变量 不 会 
出 现在 程序 中 ， 就 根本 没 必要 (甚至 在 任何 可 能 用 到 的 library 之 中 ) 保存 副本 来 提供 支持 。 
所 以 ， 如 果 没 有 用 到 捕获 型 括号 ， 再 避免 出 现 $、s$s 和 5 ?就 能 省 略 原 文 副本 一 一 这 是 很 棒 的 
优化 ! 只 要 在 程序 中 的 任何 一 处 用 到 了 $*、$&g 和 $' 三 者 之 一 ， 整 个 优化 即 告 失效 。 这 可 不 够 
意思 ! 所 以 ， 我 认为 这 些 变量 是 “不 宜 使 用 (naughty)” 的 。 


原文 副本 的 代价 有 多 高 


我 进行 了 简单 的 性 能 测试 ， 对 Perl 源 代码 的 130 000 行 C 程序 中 的 每 一 行 检查 m/c/。 这 个 
性 能 测试 仅仅 检测 哪 一 行 出 现 了 字符 “c" 。 测 试 的 目的 是 衡量 原文 副本 的 影响 。 我 用 两 种 
方法 进行 测试 : 一 种 肯定 没有 用 到 原文 副本 ， 一 种 肯定 用 到 了 。 因 此 ， 唯 一 的 区 别 就 在 于 
保存 副本 的 开销 。 


保存 原文 副本 的 程序 所 用 的 时 间 要 长 40%。 这 代表 了 “平均 最 差 情 况 "， 这 样 说 是 因为 性 能 
测试 并 没有 进行 什么 实质 性 的 操作 ， 否 则 二 者 之 间 的 时 间 相对 比例 会 减 小 (其 至 显得 微 不 
TE), 


另 一 方面 ， 在 真正 的 最 坏 情况 下 ， 额 外 副本 可 能 真 的 占据 非常 重要 的 比重 。 我 对 同样 的 数 
据 运行 同样 的 程序 ， 但 是 这 次 将 所 有 超过 3.5MB 的 数据 都 放 在 一 行 中 ， 而 不 是 长 度 合适 的 
130 000 行 。 这 样 就 能 比较 单 次 匹配 的 相对 表现 。 不 使 用 原文 副本 的 匹配 几乎 是 立刻 就 得 到 
了 结果 ， 因 为 第 一 个 “< ”字符 离开 头 不 远 ， 匹 配 之 后 程序 就 运行 结束 。 而 使 用 原文 副本 的 
程序 运行 原理 差不多 , 只 是 它 会 首先 拷贝 整个 字符 串 。 它 所 用 的 时 间 大 约 是 前 者 的 7 000 倍 。 
因此 我 们 知道 ， 避 免 使 用 某 些 结构 能 够 提高 效率 。 
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避免 使 用 原文 副本 


如 果 Perl 能 够 领会 程序 员 的 意图 ， 只 在 需要 的 情况 下 保存 副本 ， 当 然 很 好 。 但 请 记 住 ， 这 
些 副本 并 不 是 “败笔 ”一 一 Perl 在 葛 后 处 理 这 些 繁琐 事务 是 我 们 选择 Perl, 而 不 是 C 或 者 汇 
编 语言 的 原因 。 WKE, Pel 最 初 只 是 为 了 把 用 户 从 繁杂 的 机 制 中 解放 出 来 , 这 样 他 们 只 需 
要 关注 问题 的 解决 方案 就 好 了 。 


永远 不 要 使 用 不 宜 使 用 的 变量 。 同 样 ， 尽 可 能 避免 额外 的 工作 也 是 不 错 的 。 首 先 想到 的 就 
是 ,永远 不 要 在 代码 中 使 用 $*、$g 和 s$'。 通 常 ，$& 很 容易 消除 一 一 把 正则 表达 式 包 围 在 一 个 
捕获 型 括号 内 ， 然 后 使 用 $1 即 可 。 举 例 来 说 ， 把 HTML tag 转换 为 小 写 时 ， 不 使 用 
s/<\w+>/\L$&\E/g， 而 使 用 s/(<\w+>)/\L$1\E/g, 


如 果 保 存 了 原始 目标 字符 申 ， 就 可 以 很 容易 地 模拟 $$ 和 $s。 匹配 某 个 arget 字符 串 之 后 ， 可 
以 按 下 面 的 规则 来 模拟 ; 





Vr A A y A aR T Sa 
Dep 





$` substr (target, 0, $- [0] ) 
$& substr (target, $- [0], $+[0]-$-[0]) 
$’ substr (target, $+[0]) 


因为 e- 和 e+ (302) 保存 的 是 原始 目标 字符 串 中 的 位 置 ， 而 不 是 确切 的 文本 ， 使 用 它们 不 需 
要 担心 效率 问题 。 


我 还 给 出 了 $& 的 模拟 。 相 对 使 用 捕获 型 括号 和 $1 的 办 法 ， 这 可 能 是 一 个 更 好 的 办 法 ， 这 样 
完全 不 必 使 用 任何 捕获 型 括号 。 请 记 住 ， 避 免 使 用 $& 之 类 变量 的 目的 就 在 于 ， 如 果 表 达 式 
中 没有 出 现 捕获 型 括号 ， 要 避免 保存 原始 副本 。 如 果 修 改 程序 ， 去 掉 $&， 再 对 每 个 匹配 都 
增加 捕获 型 括号 ， 就 不 会 节省 任何 时 间 。 


不 要 使 用 不 宜 使 用 的 模块 。 当 然 ， 避 免 S'、s&、5' 也 意味 着 避免 使 用 调用 它们 的 模块 。Perl 
的 核心 模块 中 ， 除 English 之 外 都 没有 使 用 它们 。 如 果 你 希望 使 用 English 模块 ， 可 以 这 
样 : 


use English '-no_match_vars'; 
这 样 就 没有 问题 了 。 如 果 你 从 CPAN 或 者 其 他 地 方 下 载 了 模块 ， 你 可 能 需要 检查 一 番 ， 看 


看 它们 是 否 使 用 了 这 些 变量 。 请 参考 下 一 页 的 补充 内 容 ， 里 面 有 些 诀窍 ， 告 诉 你 如 何 判断 
程序 是 否 用 到 了 这 些 变量 。 
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如 何 检查 代码 是 否 包含 S& 


判断 程序 是 否 使 用 了 不 宜 使 用 的 变量 S$'、$& 和 S$'， 并 不 是 件 容易 的 事情 ， 尤 其 使 用 库 汉 
数 时 更 是 如 此 ， 但 还 是 有 几 个 办 法 来 判断 。 最 简单 的 是 ， 如 果 你 的 二 进 制程 序 在 编译 
时 指定 了 -DDEBUGGING 和 参数， 就 可 以 使 用 -c 和 -Mre=debug 参数 (7361), RRA 
的 结尾 ,找到 包含 "Enabling $'、$& 和 $' support’ 或 者 Omitting $',$& 和 $'aupport ’ 
的 那 一 行 。 如 果 见 到 前 面 的 文字 ， 就 表示 使 用 了 这 些 变量 。 


另 一 种 可 能 (但 不 太 现实 ) 的 情况 是 ， 程 序 在 eval 语句 中 使 用 了 这 些 变量 ， 如 果 没 
有 实际 运行 ，Perl 不 知道 的 是 否 使 用 了 这 些 变 量 。 解 决 办 法 之 一 就 是 安装 CPAN 
(http//www.cpan.org) 的 Devel:SawAmpersand Package: 


END { 
require Devel: :SawAmpersand; 
if (Devel: :SawAmpersand::sawampersand) { 
print “Naughty variable was used!\n"; 
} 
} 


5 Devel: : SawAmpersand 一 起 的 还 有 Devel: :FindAmpersand, 这 个 package he -4 
诉 用 户 有 问题 的 代码 的 位 置 。 不 幸 的 是 ， 对 最 新 版 本 的 Perl， 它 不 能 保证 完全 正确 。 


这 两 个 package 的 安装 都 不 简单 ， 所 以 要 做 的 事 没准 很 多 (请 参考 http/regex.info/t 
找 可 能 的 更 新 )。 


用 查找 性 能 损失 的 办 法 找 出 问题 代码 的 办 法 也 值得 一 看 : 
use Time: :HiRes; 
sub CheckNaughtiness (} 
{ 
my $text = 'x' x 10_000; # 创建 一 定量 的 数据 


# HERMA 

my $start = Time::HiRes::time(); 

for (my $i = 0; $i < 5_000; $i++) { } 

my Soverhead = Time::HiRes::time() - $start; 


+ 计算 同样 次 数 匹配 的 开销 

Sstart = Time::HiRes::time(); 

for (my $i = 0; $i < 5_000; $i++) { $text =~ m/*/ } 
my $delta = Time::HiRes::time() - $start; 


# 计算 差 值 
printf “It seems your code is $s (overhead=%.2f, delta=%.2f)\n", 
($delta > Soverhead*5) ? "naughty" : "clean", Soverhead, $delta; 





til 
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Study 函数 


The Study Function 


与 优化 正则 表达 式 本 身 不 同 ，study (…) 优化 了 对 特定 字符 串 的 某 些 检索 。 一 个 字符 串 在 
study 之 后 ， 应 用 到 它 的 (一 个 或 多 个 ) 正则 表达 式 可 以 从 缓存 的 分 析 数 据 中 受益 。 一 般 
是 这 样 使 用 的 : 
while (<>) 
{ 
study ($R); # 匹配 之 前 Study 默认 的 目标 字符 事 $_ 
if (m/regex 1/) { + } 
if (m/regex 2/) {== } 
if (m/regex 3/) {= } 
if (m/regex 4/) { … } 
} 
study 的 作用 很 简单 ， 但 是 理解 它 什么 情况 下 有 价值 却 不 简单 。 它 不 会 影响 到 程序 的 任何 
值 和 任何 结果 ,唯一 的 影响 就 是 ，Perl 会 使 用 更 多 的 内 存 ， 总 的 执行 时 间 可 能 会 增加 , 保持 
不 变 ， 或 者 减少 (这 是 我 们 预期 的 )。 


study 一 个 字符 串 时 ，Perl 会 分 配 时 间 和 内 存 来 记录 字符 串 中 的 一 系列 位 置 (在 大 多 数 系统 
中 ， 需 要 的 内 存 是 字符 串 大 小 的 4 倍 ) 。 在 字符 串 修 改 之 前 ， 针 对 此 字符 串 的 每 次 匹配 都 可 
以 从 中 受益 。 对 字符 串 的 任何 修改 都 会 导致 study 数据 的 失效 ， 相 当 于 study 另 一 个 字符 
申 。 


Study 能 给 目标 字符 串 提供 的 帮助 ， 很 大 程度 上 取决 于 用 来 匹配 的 正则 表达 式 ， 以 及 Perl 
能 够 使 用 的 优化 。 例 如 用 m/foo/ 检 索 文本 ， 如 果 使 用 了 study ， 速 度 会 提升 很 多 (如 果 字 
符 串 更 长 ， 甚 至 可 能 提高 10000 倍 )。 但 是 ， 如 果 使 用 了 /i， 就 不 会 有 这 种 效果 ， 因 为 /i 
不 会 利用 study 的 结果 (和 其 他 优化 )。 


不 应 该 使 用 study 的 情况 


。 ”如 果 只 使 用 /i, 或 是 所 有 正则 文字 都 受 '(?i) ,或 '(?i:…), 作 用 , 就 不 应 该 对 字符 串 使 
用 study， 因 为 它们 不 能 从 study 中 受益 。 


。 ”如 果 目 标 字符 申 很 短 ， 也 不 应 该 使 用 study。 因 为 此 时 ， 正 常 的 固定 字符 串 识别 优化 
(7247) 已 经 足够 了 。 那 么 “ 短 ” 究 竟 如 何 界定 昵 ? 字符 串 的 长 度 没有 确切 的 标准 ， 
所 以 具体 来 说 ， 只 有 进行 性 能 测试 才能 判断 study 是 否 有 益 。 不 过 权衡 利 上 新 ， 我 通常 
不 使 用 study， 除 非 字 符 串 的 长 度 为 若干 KB。 
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如 果 你 只 希望 在 修改 之 前 ， 或 是 study 不 同 的 字符 串 之 前 ， 对 目标 字符 串 进 行 少数 几 次 匹 
配 ， 请 不 要 使 用 study。 如 果 要 获得 真正 的 性 能 提升 ， 必 须 是 多 次 匹配 节省 下 来 的 时 间 长 
于 study 的 时 间 。 如 果 匹 配 次 数 较 少 ， 花 在 study 身上 的 时 间 抵 不 上 节省 的 时 间 ， 得 不 偿 
失 。 


只 对 期 望 使 用 包含 “独立 出 来 的 ”文字 (255) 的 正则 表达 式 搜索 的 字符 串 使 用 study, 
如 果 不 知道 匹配 中 必须 出 现 的 字符 ，stuGy 就 派 不 上 用 场 (看 了 这 几 条 ， 也 许 你 会 认为 ， 
study 对 index 函数 有 益 ， 但 事实 并 非 如 此 )。 


什么 时 候 使 用 study 


最 适合 使 用 study 的 情况 就 是 ， 目 标 字符 串 很 长 ， 在 修改 之 前 会 进行 许多 次 匹配 。 一 个 简 
单 的 例子 就 是 我 在 写作 本 书 时 所 用 的 过 滤器 。 我 用 自己 的 标记 法 写 稿 ， 然 后 用 过 滤器 转换 
为 SGML (再 转换 为 ro 六 ， 再 转换 为 PostScript)。 经 过 过 滤器 内 部 ,一 整 章 变 为 一 个 大 字符 
R (例如 ， 本 章 的 大 小 为 475KB)。 在 退出 之 前 进行 多 项 检查 来 保证 不 会 漏 过 错误 的 标记 。 
这 些 检 查 不 会 修改 字符 串 ， 它 们 通常 查找 固定 长 度 的 字符 串 ， 所 以 它们 很 适合 于 study, 


性 能 测试 


Benchmarking 


如 果 你 真 的 关心 效率 ， 最 好 的 办 法 就 是 进行 性 能 测试 。Perl 自 带 的 Benchmark 模块 提供 了 
详细 的 文档 ("perldoc Benchmark")。 可 能 是 习惯 使 然 , 我 更 喜欢 从 自己 动手 写 性 能 测试 : 


use Time::HiRes 'time'; 
我 把 希望 测试 的 内 容 简 单 包装 成 : 


my $start = time; 
my $delta = time - $start; 
printf "took %.1f seconds\n", $delta; 
性 能 测试 的 重要 问题 包括 ， 确 保 性 能 测试 进行 了 足够 多 的 工作 ， 显 示 的 时 间 真 正 有 意义 ， 
尽 可 能 多 地 测试 希望 的 部 分 ， 尽 可 能 少 地 测试 不 希望 的 部 分 。 在 第 6 章 有 详细 的 讲解 
(232)。 找 到 正确 的 油 试 方法 可 能 得 花 些 时 间 ， 但 是 结果 可 能 非常 有 价值 ， 也 很 值得 。 
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正则 表达 式 调试 信息 


Regex Debugging Information 


Perl 提供 了 数量 众多 的 优化 措施 ， 期 望 能 够 尽 可 能 快 地 找到 匹配 ， 第 6 章 的 “常见 优化 措 
W” (7204) 介绍 了 基础 的 措施 ， 但 还 有 许多 其 他 的 措施 。 大 多 数 优化 只 能 应 用 于 专门 的 
情况 ， 所 以 特定 正则 表达 式 只 能 从 其 中 的 某 一 些 (甚至 是 没有 ) Riz. 


Perl 的 调试 模式 (debugging mode) 能 提供 优化 的 信息 。 在 正则 表达 式 第 一 次 编译 时 ，Perl 
会 选择 这 个 正则 表达 式 所 使 用 的 优化 措施 ， 而 调试 模式 会 显示 其 中 的 一 部 分 。 调 试 模式 同 
样 可 以 告诉 我 们 引擎 是 如 何 应 用 表达 式 的 。 仔 细 分 析 这 些 调试 信息 不 属于 本 书 的 范围 ， 但 
我 会 在 这 里 给 出 简要 介绍 。 


在 程序 中 可 以 通过 use re 'debug'; 来 显示 调试 信息 ， 用 no re 'daebug' ;来 关闭 (EX 
曾 出 现 过 编译 指示 use re， 根 据 不 同 的 参数 ， 启 用 或 禁用 插值 变量 中 的 内 嵌 代 码 口 337 ) 。 


如 果 和 希望 在 整个 脚本 中 启用 此 功能 ， 可 以 使 用 命令 行 参数 -Mre=debug。 这 很 适合 检查 单个 
的 正则 表达 式 的 编译 方法 。 下 面 是 一 个 例子 (只 保留 了 相关 的 行 ): 

% perl -cw -Mre=debug -e 'm/*Subject: (.*)/' 

Compiling REx '*Subject: (.*)' 

rarest char j at 3 


1: BOL{2) 
2: EXACT <Subject: >(6) 


12: END (0) 
anchored 'Subject: ' at 0 (checking anchored) anchored(BOL) minlen 9 
Omitting $' $& $' support. 
在 @ 处 从 shell 提示 符 启动 perl, 使 用 命令 行 参数 -c (意思 是 检查 脚本 , 而 不 是 确切 执行 它 )， 
-w (如 果 Perl 对 代码 存 有 疑问 ， 就 会 发 出 警报 ) ， 以 及 -Mre=daebug 启用 调试 。-e 表示 下 面 
的 参数 “m/^Subject:…(.*)/” 是 一 段 Perl 代码 ， 需 要 运行 或 者 检查 。 


@ 行 报告 表达 式 固 定 长 度 的 字符 串 中 “出 现 频率 最 低 ” 的 字符 (H Perl 猜测 )。Perl 根据 这 
一 点 进行 某 些 优化 (例如 预 查 所 需 字符 / 子 串 245)。 
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第 @ 到 @ 行 表示 Perl 编译 好 的 正则 表达 式 。 因 为 篇 幅 的 原因 , 我 们 在 这 里 不 会 花 太 多 的 工夫 。 
不 过 ， 即 使 是 随便 看 看 ， 第 @ 行 也 不 难 理解 。 


第 @ 行 对 应 大 多 数 行为 。 可 能 显示 的 信息 包括 : 


Anchored 'string' at offset 


它 表 示 匹 配 必须 包含 某 个 字符 串 ， 此 字符 串 在 匹配 中 的 偏 移 值 为 offset。 如 果 s 紧 跟 在 
'String ' 之 后 ， 那 么 string 是 匹配 结尾 的 元 素 。 


floating 'string' at from..to 


它 表 示 匹 配 必 须 包 含 某 个 字符 串 , 此 字符 串 在 匹配 中 处 于 从 from (开始 ) 到 to (结束 ) 
中 的 任意 位 置 。 如 果 $ 紧 跟 在 'Sitring ' 之 后 ，string 是 匹配 结尾 元 素 。 


stclass ‘list’ 
它 表 示 匹 配 可 能 的 开始 字符 。 
anchored (MBOL), anchored(BOL), anchored (SBOL) 


说 明 表 达 式 以 “| 开头 。MBOL 说 明 使 用 了 /m 修饰 符 ，BoL 和 sBoL 表示 没有 使 用 (BOL 
和 SBOL 的 区 别 在 现代 Perl 中 没有 意义 。sBoL 与 S* 变 量 有 关 ， 而 此 变量 已 被 废弃 了 ) 。 


anchored (GPOS) 
说 明正 则 表达 式 以 \G: 开 头 。 
implicit 
说 明 anchored (MBOL) 是 由 Perl 隐 式 添加 的 ， 因 为 正则 表达 式 以 .* ;开头 。 
minlen length 
代表 匹配 成 功 的 最 小 长 度 。 
with eval 
PEAR BEARDS (O eN RÆ O?O 


第 信行 与 正则 表达 式 无 关 ， 只 有 当 二 进 制 代码 中 的 编译 启用 了 -DDEBUGGING MA SHR. 
如 果 启 用 ， 在 载 人 整个 程序 之 后 ，Perl 会 报告 是 否 启用 了 对 $& 等 变量 的 支持 (7356). 


运行 时 调试 信息 
我 们 知道 如 何 利用 内 嵌 代 码 获 得 匹配 的 运行 信息 (7331), 但 是 Perl 的 正则 表达 式 调试 可 


以 提供 更 多 的 信息 。 如 果 去 掉 表示 “ 仅 编译 ”的 -c 选项 ，Penl 会 提供 更 多 关于 匹配 运行 细 
市 的 信息 。 


iti 
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出 现 “Macch rejected by optimizer, ”表示 某 种 优化 措施 让 传动 装置 认识 到 ， 这 个 正 
则 表达 式 永远 无 法 在 目标 字符 串 中 匹配 ， 所 以 会 忽略 任何 尝试， 下 面 是 一 个 例子 : 


% perl -w -Mre=debug -e '"this is a test" =~ m/*Subject:/;' 


Did not find anchored substr 'Subject:'? 
Match rejected by optimizer 
如 果 启 用 了 调试 功能 ， 用 户 可 以 看 到 所 有 用 到 的 正则 表达 式 的 调试 信息 ， 而 不 只 限于 用 户 
提供 的 正则 表达 式 。 例 如 : 
% perl -w -Mre=debug -e ‘use warnings' 
_ 大 重 调试 信息 . .. 


它 没 有 进行 任何 操作 ， 只 是 装载 了 warning 模块 ， 但 是 因为 这 个 模块 包含 正则 表达 式 ， 我 
们 仍然 会 见 到 许多 调试 信息 。 


显示 调试 信息 的 其 他 办 法 


我 已 经 提 到 ， 可 以 使 用 “use re 'debug';” 或 -Mre=debug 来 启用 正则 表达 式 的 调试 。 不 
过 ， 如 果 把 所 有 的 debug 替换 为 debugcolor， 而 终端 又 支持 ANSI 转 义 控制 字符 (ANSI 
terminal control escape Sequences) ， 输 出 的 信息 就 会 以 高 亮 标记 ， 更 容易 阅读 。 


另 一 个 办 法 是 ， 如 果 Perl 二 进 制 代码 在 编译 时 启用 了 调试 支持 ， 可 以 使 用 命令 行 参数 -Dr 
来 表示 -Mre=debug。 


结语 


Final Comments 


RANA CCAR Perl 的 正则 表达 式 中 ， 本 章 的 开头 我 曾 提 到 ， 这 是 有 充分 理由 的 。 

Perl 之 父 Larry Wall ， 完 全 是 按照 常识 和 发 明 的 动力 【Mother of Invention) 来 做 的 。 是 的 ， 

Perl 的 正则 表达 式 实 现 也 有 自己 的 问题 ,但 是 我 仍然 愿意 醉心 于 Perl 正则 语言 丰富 的 功能 ， 
及 其 与 Perl 其 他 部 分 的 融合 。 


当然 , 我 热情 而 不 盲目 一 一 Perl 并 没有 提供 某 些 我 希望 的 特性 。 本 书 第 1 版 渴望 的 某 些 特性 
现在 已 经 添加 了 ， 我 会 继续 提出 要 求 ， 希 望 Perl 会 继续 添加 。 相 对 于 其 他 实现 ，Perl RA 
需 提供 的 功能 是 命名 捕获 (138)。 本 章 给 出 了 模拟 的 办 法 ， 但 还 存在 若干 限制 。 提 供 内 
建 支持 是 最 好 的 解决 办 法 。 如 果 能 提供 字符 组 集合 运算 (7125) 也 很 好 ， 虽 然 目前 可 以 费 
点 周折 用 顺序 环视 来 模拟 (7126), 
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然后 是 占有 优先 量词 (7142), Perl 的 固化 分 组 提供 了 更 多 的 完整 功能 , 但 是 在 某 些 情况 下 
占有 优先 量词 的 解法 更 清楚 更 美观 。 所 以 ， 两 种 办 法 我 都 喜欢 。 事 实 上 ， 还 有 两 个 我 喜欢 
两 个 相关 结构 ， 目 前 还 没有 任何 流派 提供 。 其 中 之 一 是 “cut” 操 作 ， 或 者 叫 \v,， 它 会 立 
刻 清 除 当前 存在 的 所 有 保存 状态 (这 样 ，x+\vi 就 等 于 x++ 或 者 '(?>x+)1)。 另 一 个 结构 用 
来 禁止 传动 装置 的 任何 进一步 的 操作 。 它 的 意思 是 “要 么 在 当前 路 径 找到 一 个 匹配 ， 要 么 
就 不 容许 任何 匹配 ， 没 有 其 他 可 能 .。” 可 能 用 “Vi 来 表示 比较 好 。 


还 有 个 与 \w 有 关 的 想法 ,我 认为 在 传动 装置 中 添加 通用 的 钧 子 功能 (general hooks) 是 有 
用 的 ， 这 样 第 335 页 的 程序 就 可 以 大 大 化 简 。 


最 后 要 说 的 是 ， 我 在 第 337 页 曾经 提 到 ， 在 内 嵌 代 码 插值 到 正则 表达 式 时 ， 提 供 更 多 的 控 
制 是 非常 有 用 的 。 


Perl 当然 不 是 理想 的 正则 表达 式 语 言 ， 但 它 很 接近 这 个 目标 ， 而 且 一 直 在 进步 。 
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第 章 
Java 


Java 


Á 2002 年 早期 发 布 的 Java 1.4.0 以 后 ，Java 就 内 建 了 正则 表达 式 包 ，java.util.regex， 
它 的 API 毫 不 复杂 (可 以 称 得 上 简单 ) ， 提 供 了 强大 而 有 创意 的 功能 。 对 Unicode 的 支持 很 
棒 ， 文 档 很 清晰 ， 运 行 速度 也 很 快 。 它 能 够 用 来 匹配 CharSequence HR, MEREK 
非常 方便 。 


sjava.util.regex EETA ERT 它 的 功能 、 速度 和 正确 性 都 达到 了 非 
常 高 的 水 平 ， 尤其 是 对 初次 发 软件 来 说 ， 更 是 如 此 。 Java 1.4 的 最 终 版 本 是 1.4.2。 写 作 
本 书 时 ，Java 1.5.0 (也 叫 java 30) EGR Ws (也 叫 Java 6.0) 已 经 发 布 了 第 
二 个 beta 版 本 。 ABER ir ava eo Java 1.4.2 或 Java 
1.6.0 之 间 的 重要 差异 【这些 差 异 ED ( 注 1)。 



















与 之 前 各 章 的 联系 





在 阅读 本 章 之 前 ， i 
关心 Java 的 读者 可 能 会 直 粮 所 3 错过 前 言 和 开头 儿 章 的 内 容 : 
第 1、2、3 章 介绍 了 正则 表达 4. 5, 6 章 包含 了 理解 正则 
表达 式 的 关键 知识 ， 它 位 可 以 前 5 mt Ny 开头 几 章 讲 解 的 重要 概念 
包括 NFA 3/908 CAERS he Mea 


5 6 章 介 绍 的 所 有 知识 。 有 些 只 








Sa AR te S va pe, 
注 1 本 书 可 以 壬 用 于 Java 15.0 Update 7, Java 1.5 HRA R AMITA PION; HRA 
AEF bug, Update? HA TRAM, Mtoe tho Java RRMT EC, RAMA, 
Java 1.6 beta 的 信息 针对 当前 发 beta2, build59g 版 。 
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表 8-1: 方法 名 索引 ( 按 字母 、 页 码 排序 ) 


















matcher 
376 matcher (Matcher) 
395 matcher (Pattern) 


appendReplacement 
381 appendTail 
372 compile 


replaceFirst 
390 reguireEnd 
392 reset 


377 end 393 pattern(Matcher) [395 split 

375 find 394 pattern(Pattern) |377 start 

394 flags 395 quote 394 text 

377 group 379 QuoteReplacement |377 toMatcheResult 


377 groupCount 386 region 

386 regionEnd 
386 regionStart 
378 replaceAll 


replaceAllRegion 


393 toString(Matcher) 
394 toString(Pattern) 
388 useAnchoringBounds 
393 usePattern 
useTransparent Bounds 


388 hasAnchoringBounds 
387 hasTransparentBounds 
390 hitEnd 

lookingAt 














这 张 表格 供 简要 查询 ， 详 细 的 APE 讲 解 从 第 371 FPR, 


在 这 里 我 还 是 要 强调 ， 尽 管 第 367 页 的 表格 覃 阅 起 来 很 方便 鲍 3 章 第 114 和 第 123 页 的 
表格 也 是 如 此 ， 但 本 书 的 目的 不 是 作为 参 萎 手册 > 而 是 “党 担 "WiE 则 表达 式 的 详细 教程 。 


前 面 几 章 已 经 出 现 过 java- ütil.regexMI AF (81、95、98、217、235)， 本 章 在 讲解 
各 种 类 及 其 实际 应 用 时 会 给 出 更 多 的 例子 。 不 过 ,首先 还 是 来 看 Java 支持 的 正则 流派 ， 以 
及 对 应 的 修饰 符 。 


Java 的 正则 流派 


Java © s Regex Flavor 


java.util.regex 使 用 传统 型 NFA， 所 以 第 4、5、6 章 介绍 的 丰富 特性 都 适用 于 它 。 下 页 
的 表 8-2 总 结 了 它 的 元 字符 。 此 流派 的 某 些 方面 已 经 发 生 了 变化 ,原因 是 各 种 匹配 模式 ， 匹 
配 模式 的 启用 通过 各 种 method 和 factory 来 设 定 标志 位 ， 或 者 内 婴 在 表达 式 中 的 
'(2mods-mods) | 和 '(?mods-mods:…) ,修饰 符 。 这 些 模式 在 第 368 页 的 表 8-3 中 有 列 出 。 


下 面 是 对 表 8-2 的 说 明 : 
© 只 有 在 字符 组 内 部 ，\b 才 代 表 退 格 字符 。 在 其 他 场合 ，\b 都 代表 单词 分 界 符 。 


表 中 给 出 的 是 “ 纯 (raw)” 反 和 斜 线 ， 但 是 用 作 Java 正则 表达 式 的 字符 串 时 必须 使 用 双 
反 斜 线 。 例 如 ， 表 中 的 、\n 在 Java 的 字符 串 中 必须 写作 “\\na"。 请 参考 “作为 正则 表 
达 式 的 字符 串 ”( 字 101)。 


\x## 容 许 且 只 容许 出 现 两 位 十 六 进 制 数字 ， 所 以 xFCber 匹配 ‘über’, 
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X 8-2: java.util.regex x 的 正则 流派 





F115 (c) mn + ru \e \f \n \r \t " \Ooctal vaf PRE pert 


字符 组 及 相关 结构 

#118 (c) 字符 组 : […] [^…] (可 包含 集合 运算 符 了 125) 
F119 几乎 任何 字符 : 点 号 (根据 模式 的 不 同 ， 有 各 种 含义 ) 
#120 (c) 字符 组 缩 略 表示 法 ?2: \w \d \s \W \D \S 
7121 (c) Unicode 属性 和 区 块 ": \p{Prop} \P{Prop} 

锚 点 及 其 他 办 长 度 断 言 

2370 行 / 字 待 事 起 始 位 置 : ^ \A 

#370 行 /字符 事 结束 位 置 : $ \z \ 人 2 

#370 当前 匹配 的 起 始 位 置 : \G 

#133 单词 分 界 符 ”: \b \B 

#133 环视 结构 93: (?=…) (?!…) (?<=…) (Rete) 
注释 及 模式 修饰 符 

135 模式 修饰 待 : (?mods-mods) 容许 出 现 的 模式 : xasmi u 
F135 模式 修饰 范围 : (?mods-mods:…) 

2368 (c) 注释 : 从 # 到 行 末 (只 在 启用 时 有 效 ) © 

7113 (c) 文字 文本 模式 ”: \Q*…\E 

分 组 及 捕获 

#137 捕获 型 括号 : (…) \L \2… 

137 仅 分 组 的 括号 : (? 

7139 固化 分 组 : (?>…) 

7139 多 选 结构 : | 

F141 匹配 优先 量词 : * + ? {n} {n,} {x,y} 

F141 忽略 优先 量词 : *? +? 2? {n}? {n,}? {x,y}? 
#142 占有 优先 量词 : *+ ++ ?+ {mn} + {n,}+ (x, y}+ 





(c) 一 一 可 用 于 字符 组 内 部 O- ORR 


\u#### 容 许 且 只 容许 四 位 十 六 进 制 数字 ， 例 如 ，\u00oFcber pEi ‘über’, "\u20AC) 
匹配 ““。 


\ooctal 要 求 开头 为 0， 后 接 1 到 3 位 十 进 制 数字 。 


\cchar 是 区 分 大 小 写 的 ,直接 对 后 面 字 符 的 十 进 制 编码 进行 异 或 (xoring) 操作 。 与 我 
见 过 的 任何 流派 都 不 一 样 ， 在 这 里 \ca 和 \ca 是 不 同 的 。\ca 等 于 传统 意义 上 的 \x01， 
\ca 则 等 价 于 \x21， 匹 配 “!"。 


© \w、\a 和 \e (以 及 对 应 的 大 写 缩 略 法 ) 只 适用 于 ASCI 字符 ， 而 不 包括 其 他 的 字母 、 
数字 或 者 Unicode 空白 字符 。 也 就 是 说 ，\a 等 价 于 [0-9] ，\w 等 价 于 [0-9a-zA-2Z]， 
\s 等 价 于 ["\t\n\f\r\x0B] (\x0B 是 ASCI 中 基本 不 用 的 VT 字符 )。 
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© 


要 覆盖 完整 的 Unicode 字符 , 可 以 使 用 Unicode 属性 (7121): 用 \p{L} 表 示 \w, \p{Na) 
表示 \da， 用 \p{2} 表 示 \s。( 把 小 写 的 p 替换 为 大 写 的 Pp， 就 可 以 对 应 \Ww、\D 和 \S)。 


\p{…} 和 \P{…} 支 持 Unicode 属性 和 区 块 ， 以 及 某 些 额外 的 “Java 属性 ”。 它 不 支持 
Unicode 字母 表 。 详 细 信 息 在 下 一 页 。 


对 单词 分 界 符 元 字符 \b 和 \B 来 说 ,“ 单 词 字 符 ” 的 规定 不 同 于 \w 和 \w。 单 词 分 界 符 能 
够 识别 Unicode 字符 ， 而 \w 和 \w 只 能 识别 ASCH 字符 。 


顺序 环视 结构 中 可 以 使 用 任意 正则 表达 式 , 但 是 逆序 环视 中 的 子 表达 式 只 能 匹配 长 度 有 
限 的 文本 。 也 就 是 说 ，?; 可 以 出 现在 逆序 环视 中 , 但 *, 和 "+, 则 不 行 。 请 参考 第 3 章 133 
页 开始 的 内 容 。 


只 有 在 使 用 /x 修饰 符 ， 或 者 使 用 Pattern.COMMENTS 选项 (7368) (请 不 要 忘记 在 多 
行文 本 字符 串 中 添加 换行 符 , 如 第 401 页 的 例子 ) 时 ,#… 回 才 算 注释 。 没有 转 义 的 ASCII 
字 空 白字 符 会 被 忽略 。 注 意 : 这 一 点 与 大 多 数 支持 此 模式 的 正则 引擎 不 同 ， 在 Java 中 
字符 组 内 部 的 注释 和 空白 字符 也 会 被 忽略 。 


\Q…\E 一 直 是 被 支持 的 ， 但 在 Java 1.6 之 前 ， 字 符 组 内 部 的 此 种 结构 是 不 可 靠 的 。 


R 8-3: java.util.regex 中 Match 和 Regex 的 方法 


Patern.UNIX_LINES 
Pattern. DOTALL 
Pattern.MULTILINE 


Pattern.COMMENTS 
Pattern.CASE_INSENSITIVE 


Pattern.UNICODE_CASE 


Pattern.CANNON_EO 


os ARA 
rae LE Fhe wo? (370) 
s č | 点 号 能 匹配 任何 字符 (7111) 

m | HAM Fos HMR (737) 
ae 宽松 排列 和 注释 模式 (在 字符 组 内 部 也 有 效 ) 
(72) 

i | 对 ASCIL 字符 进行 不 区 分 大 小 写 的 匹配 

ju | 对 Unicode 字符 进行 不 区 分 大 小 写 的 匹配 
Unicode“ 按 规则 等 价 (canonical equivalence)” 


匹配 模式 (不 同 编 码 中 的 同样 字符 视 为 相等 
108) 


Pattern.LITERAL |__| 将 regex 参数 作为 文字 文本 ， 而 非 正则 表达 式 
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Java 对 \p{..} 和 \P{...} 的 支持 


Java Support for \p{. J and P} 


\p{--}) A'\P (+) AREF Unicode 的 属性 和 区 块 ， 也 支持 特殊 的 “Java” 字 符 属 性 。 这 
种 支持 针对 Unicode Version 4.0.0 (Java 1.4.2 只 支持 Unicode Version 3.0.0) , 


Unicode 属性 


Unicode 属性 是 通过 \p{Lu} 之 类 的 缩写 名 字 来 引用 的 (参加 122 页 的 列表 )。 单 字母 属性 名 
可 以 省 略 括号 ，\pL 等 价 于 \p{L}。 而 \p{Lowercase_Letter) 之 类 的 长 名 称 是 不 支持 的 。 


Java 1.5 及 之 前 的 版 本 是 不 支持 Pi 和 Pe 属性 的 ， 因 此 ， 具 有 这 种 属性 的 字符 不 能 用 \p{P) 
来 匹配 (Java 1.6 支持 ) 。 


“未 赋值 的 代码 点 ”属性 \p{cn} 匹 配 的 字符 ， 不 能 由 “其 他 字符 ”属性 \p{c} 来 匹配 。 
Java 不 支持 组 合 属性 \p{L&}。 


Java 支持 伪 属 性 \p{all}, EMF! (2s: .)1, 但 不 支持 \p{assigned} 和 \p{unassigned)} 
伪 属 性 ， 不 过 我 们 可 以 用 \P{cn} 和 \p{cn} 来 代 震 。 


Unicode 区 块 


Unicode block 的 支持 要 求 使 用 "In 前缀。 请 翻 到 第 402 页 查阅 具体 的 版 本 信息 , 了解 \p{…)， 
和 、P{(…)) 中 能 够 出 现 的 区 块 名 称 。 


为 了 保持 向 后 兼容 性 ,Java 1.5 中 有 两 个 Unicode 区 块 在 Unicode Version 3.0 和 4.0 之 间 发 生 

了 变化 。 除 了 Unicode 4.0 提供 的 Combining Diacritical Marks for Symbols 和 Greek and 
Coptic 之 外 ， 还 可 以 使 用 本 不 属于 Unicode 4.0 的 名 称 Combining Marks for Symbols 和 
Greek, 


Java 1.4.2 有 个 涉及 Arabic Presentation Forms-B #1 Latin Extended-B ff) bug, 7 Java 1.5 
中 已 经 修正 。 


特殊 的 Java 字符 属性 


从 Java 1.5.0 开始 ，\p{…} 和 \P{…} 结 构 能 够 支持 java.lang.character PRAH 
(non-deprecated) 的 isSomething 方法 。 为 了 在 正则 表达 式 中 使 用 此 功能 ， 请 把 方法 名 开头 
的 “is” 替 换 成 “java’ ,然后 使 用 "\p{…} 入 P{…} J。 例 如， 由 java.lang.Characer. 
isJavaIdentifierStart 匹配 的 字符 也 能 用 正则 表达 式 '\p{javaJavaldentifierstart) 
来 匹配 (请 参考 java.lang.character 类 的 文档 )。 


L 
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Unicode 行 终结 符 


Unicode Line Terminators 


在 Unicode 之 前 的 传统 正则 流派 中 ， 点 号 、^、$ 和 \z 会 对 换行 符 (ASCII 中 的 LF 字符) 进 
行 特殊 处 理 。 在 Java 中 ， 大 多 数 Unicode 行 终结 符 (109) 也 会 这 样 特殊 处 理 。 


正常 情况 下 ，Java 会 把 下 面 的 这 些 字符 当 作 行 终结 符 : 





U+000R dæ ASCII [RHR Ca newline” E 

U+000D CR Ar | ASCH 回 车 

U+000D U+000A ASCII 回 车 /换行 序列 

U+0085 Unicode NEXT LINE (Unicode 换行 符 ) 
U+2028 Unicode LINE SEPERATOR (Unicode 行 分 隔 符 ) 





U+2029 PS | Unicode PARAGRAPH SEPARATOR (Unicode 段 分 隔 符 ) 


根据 匹配 模式 (7368) 的 不 同 ， 点 号 、^、$ 和 \z 会 对 这 些 符号 进行 特殊 处 理 ; 


= a — R = ER gx Wm th Salt 
tee rb 


JETE] rrr TIEN 
字符 事 中 的 行 终结 符 也 可 以 由 ^ 和 $ 匹 配 
| . | 行 终结 特 不 再 另行 处 理 ， 点 号 可 以 匹配 所 有 字符 


作为 行 终结 标志 的 双 字 符 CR/LF 值得 一 提 。 默 认 情况 (没有 使 用 UNIX_LINES 时 ) 是 识别 
完整 的 行 终结 符 ， 匹 配 文本 行 边界 的 元 字符 会 把 CRLF 视 为 不 可 分 隔 的 单位 ， 一 次 性 匹配 
这 两 个 字符 。 


举例 来 说 ，$ 和 \z 通常 会 匹配 行 终结 符 之 前 的 位 置 。LF 是 行 终结 符 ， 但 只 有 在 它 不 属于 
CR/LF (也 就 是 说 ，LF 之 前 没有 CR) 的 情况 下 ，$ 和 \z 才 能 匹配 字符 串 末 尾 的 LF 之 前 的 
位 置 。 


MUTILINE 模式 中 的 $ 和 人 ^ 也 是 如 此 ， 在 这 种 模式 下 ， 只 有 在 CR 之 后 没有 LF 的 情况 下 ,“ 才 
能 匹配 CR 之 后 的 位 置 ， 只 有 在 LF 之 前 不 是 CR 的 情况 下 ，$ 才 能 匹配 LF 之 前 的 位 置 。 


必须 说 清楚 的 是 ，DOTALL 对 CR/LF 的 处 理 没有 影响 (DOTALL 只 影响 点 号 ， 而 点 号 总 是 逐 
个 处 理 字符 的 )，UNIX_LINES 根本 不 存在 此 类 问题 ( 它 只 识别 CR， 所 有 其 他 行 终结 符 都 不 
需要 特殊 处 理 )。 






a 
UNIX_LINE 
MULTILINE 
DOTALL 
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使 用 java.util regex 


Using java.util. regex 


通过 java.util.regex 使 用 正则 表达 式 非 常 简单 ， 功 能 由 两 个 类 ， 一 个 接口 和 一 个 
unchecked exception 组 成 。 


java.util.regex. Pattern 
java.util.regex.Matcher 
java.util.regex.MatchResult 


java.util.regex.PatternSyntaxException 


就 我 个 人 来 说 ， 更 喜欢 简称 前 两 个 为 “patterm ”和 “matcher”， 许 多 时 候 我 们 只 会 用 到 这 两 
个 类 。 简 单 地 说 ，Pattern 对 象 就 是 编译 好 的 正则 表达 式 ， 可 以 应 用 于 任意 多 个 字符 圳 ， 
Matcher 对 象 则 对 应 单独 的 实例 ， 表 示 将 正则 表达 式 应 用 到 某 个 具体 的 目标 字符 串 上 。 


Java 1.5 新 提供 的 atchResult， 它 封装 了 成 功 匹配 的 数据 。 匹 配 数据 可 以 在 下 一 次 匹配 尝 
试 之 前 从 Matcher 本 身 获 得 ， 也 可 以 提取 出 来 作为 MatchResult 保存 。 


如 果 匹 配 尝试 所 使 用 的 正则 表达 式 格式 不 正确 (例如 ，[oops] 的 语法 就 不 正确 ,就 会 抛 出 
PatternSyntaxException 异常 。 这 是 一 个 unchecked exception ， 继 承 自 java.lang. 
IllegalAgumentException, 


下 面 是 一 个 完整 的 、 详 细 的 程序 ， 示 范 了 简单 的 匹配 : 


public class SimpleReagenTesr | 
pubiic static void tmain(Stringf} args) 
{ 
String myText = "this is my 1st test string"; 
String myRegex = "\\d+\\w+"; // 表示 \G+NW+ 
java.util.regex.Pattern p = java.util.regex. Pattern.compile(myRegex) ; 
java.util.regex.Matcher m = p.matcher(myText); 


if (m.find()) { 
String matchedText = m.group(); 
int matchedFrom = m.start(); 
int matchedTo = m.end(); 
System.out.println("matched [" + matchedText + "] " + 
"from ”+ matchedFrom + 
"to " + matchedTo + ."."); 
} else { 
System.out.printin(*didn't match"); 
} 
} 
} 


结果 是 “matchea [1st] from 12 to 15."。 在 本 章 的 所 有 例子 中 ， 我 都 用 斜体 表示 变量 
名 。 如 果 这 样 声明 ， 可 以 省 略 粗 体 部 分 : 


import java.util.regex.*; 


它 应 该 放 在 程序 的 头 部 ， 和 第 3 章 的 例子 (795) 一 样 。 


L 
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这 是 标准 的 做 法 ， 而 且 程序 更 容易 管理 。 本 章 的 其 他 程序 省 略 了 import 语句 。 


java.util.regex 使 用 的 对 象 模型 与 其 他 大 多 数 语言 不 同 。 请 注意 , 前 面 例子 中 的 Matcher 
对 象 m， 是 通过 把 pattern 对 象 和 目标 字符 串联 系 起 来 得 到 的 ， 它 用 来 进行 实际 的 匹配 党 
ik (使 用 find 方法 ) ， 以 及 查询 结果 ((EHĦ group, start Ml end HH), 


这 办 法 初 看 起 来 可 能 有 点 古怪 ， 但 你 很 快 就 能 适应 了 。 


The Pattern.compile() Factory 


The Pattern. compile?) Factory 


正则 表达 式 的 Pattern 对 象 是 通过 pattern.compile 生成 的 ,第 一 个 参数 是 代表 正则 表达 
式 的 字符 串 (7101), 368 页 表格 8-3 中 的 选项 可 以 作为 第 二 个 参数 。 下 面 的 代码 从 字符 捉 
myRegex 生成 一 个 pattern， 进 行 不 区 分 大 小 写 的 匹配 : 


Pattern pat = Pattern.compile(myRegex, 
Pattern.CASE_INSENSITIVE | Pattern.UNICODE_CASE) ; 


预定 义 的 pattern 常量 用 来 指定 编译 选项 (例如 Pattern.CASE_INSENSITIVE)， 这 可 能 有 
点 笨拙 QE 2), 所 以 我 会 使 用 正则 表达 式 内 部 的 模式 修饰 符 (7110). 包括 378 THY Ox), 
399 页 的 (?s) 和 多 个 "(?i)。 


不 过 ， 预 定义 常量 固然 复杂 ， 但 这 种 “条 办 法 (unwieldy) ”能够 降低 新 手 阅 读 代 码 的 难度 。 

如 果 没 有 页 面 宽 度 限 制 ， 我 们 可 以 这 样 写 第 384 页 的 Pattern.compile 的 第 二 个 参数 ; 
Pattern.UNIX_LINES | Pattern.CASE_INSENSITIVE 

而 不 是 在 正则 表达 式 开 头 使 用 不 那么 清楚 的 Oid) 

从 名 字 可 以 看 出 ， 这 一 步 把 正则 表达 式 解 析 并 编译 为 内 部 形式 。 第 6 章 对 此 有 详细 讲解 

(241)， 简 单 地 说 ， 在 字符 串 内 应 用 表达 式 的 整个 过 程 中 ， 编 译 pattern 通常 是 最 耗 时 间 


的 。 所 以 要 把 编译 独立 出 来 ， 作 为 第 一 步 一 一 这 样 就 可 以 先期 将 正则 表达 式 编 译 好 ， 重 复 
使 用 。 


当然 ， 如 果 正 则 表达 式 编译 之 后 只 需要 使 用 一 次 ， 编 译 时 机 就 不 是 个 问题 ， 但 如 果 需 要 多 
次 应 用 (例如 应 用 到 读 入 文件 的 每 一 行 )， 预 编译 Pattern 对 象 就 很 有 价值 。 


注 2: 尤其 是 在 页 面 宽 度 固 定 的 书 精 中 安排 代码 的 时 候 一 一 我 对 此 深 有 体会 。 
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调用 Patern.compile 可 能 抛 出 两 种 类 型 的 异常 :如 果 正则 表达 式 不 合 规则 PtH Pattern- 


syntaxException， 选 项 不 合 规则 ， 抛 出 11legalArqumentException, 


Pattern 的 matcher 方法 


Pattern’s matcher method 


Pi (7394) 我 们 会 看 到 ，Pattern 提供 了 某 些 简便 的 方法 ， 但 是 大 多 数 情况 下 ， 我 们 
只 需要 -个 方法 完成 所 有 工作 : matcher。 它 接受 一 个 参数 : 需要 检索 的 字符 串 ( 注 3)。 
此 时 并 没有 确切 应 用 这 个 正则 表达 式 ， 而 只 是 为 将 pattern 应 用 到 特定 的 字符 串 做 准备 。 
matcher 方法 返回 一 个 Matcher 对 象 。 


Matcher 对 象 


The Matcher Object 


把 正则 表达 式 和 目标 字符 串联 系 起 来 , 生成 Matcher 对 象 之 后 , 就 可 以 以 多 种 方式 将 其 应 用 
到 目标 字符 串 中 ,并 查询 应 用 的 结果 .例如 ,对 于 给 定 的 Matcher 对 象 m, 我 们 可 以 用 m. find() 
来 把 m 的 表达 式 应 用 到 目标 字符 串 中 , 返回 一 个 Boolean 值 , 表示 是 否 能 找到 匹配 。 如 果 能 
找到 ，m.group (返回 实际 匹配 的 字符 串 。 


在 讲解 Matcher 的 各 种 方法 之 前 , 不妨 先 了 解 了 解 它 保存 的 各 种 信息 。 为 了 方便 阅读 ， 下 面 
的 清单 都 提供 了 对 应 的 详细 讲解 部 分 的 页 码 。 第 一 张 清单 中 的 元 素 是 程序 员 能 够 设置 和 更 
改 的 ， 而 第 二 张 清单 中 的 元 素 是 只 读 的 。 


程序 员 能 够 设置 和 修改 的 是 ; 


。 pattern 对 象 ， 由 程序 员 在 创建 Matcher 时 指定 。 可 以 通过 usePattern() 方 法 更 改 
(=393)。 当 前 所 用 的 Pattern 可 以 用 pattern1() 方 法 获得 。 


*。 ”目标 字符 串 (或 其 他 charsequence 对 象 ) ， 由 程序 员 在 创建 Matcher 时 指定 。 可 以 通 
过 reset (text) 方法 更 改 (7392), 


。 目标 字符 串 的 “检索 范围 (region)”(=394)。 默 认 情况 下 ,检索 范 围 就 是 整个 目标 字 
符 串 ， 但 是 程序 员 可 以 通过 region 方法 ， 将 其 修改 为 目标 字符 圳 的 某 一 段 。 这 样 某 
He (而 不 是 全 部 ) 匹配 操作 就 只 能 在 某 个 区 域内 进行 。 


注 3: 事实 上 ，java.util.regex 是 非常 方便 的 ， 因 为 “string” 秦 数 可 以 是 任何 实现 Char- 
Sequence 接口 的 对 象 (String, StringBuffer, StringBuilder, WA CharBuffer 
都 可 以 ) 。 
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当前 检索 范围 的 起 始 和 结束 偏 移 值 可 以 通过 regionStart 和 regionEnd 方法 获得 
(7386), reset 方法 (7392) 会 把 检索 范围 重新 设置 为 整个 目标 字符 串 ， 任 何在 内 
部 调用 reset 方法 的 方法 也 是 一 样 。 


anchoring bounds 标志 位 。 如 果 检 索 范 围 不 等 于 整个 目标 字符 串 ， 程 序 员 可 以 设 定 ,， 是 
否 将 检索 范围 的 边界 设置 为 “文本 起 始 位 置 ” 和 “文本 结束 位 置 "， 这 会 影响 文本 行 边 


界 元 字符 (\A ^ $ \z \z)。 


默认 情况 下， 这 个 标志 位 为 trtue， 和 但 也 可 能 改变 ， 可 以 通过 useAnchoringBounds 
(9388) 和 hasAnchoringBounds 方法 来 修改 和 查询 。Reset 方法 不 会 修改 标志 位 。 


transparent bounds 标志 位 。 如 果 检 索 范 围 是 整个 目标 字符 串 中 的 一 段 文本 , 设置 为 tue 
容许 各 种 “考察 (looking)” 结 构 ( 顺 序 环视 、 逆 序 环视 ， 以 及 单词 分 界 符 ) 超越 检索 
范围 的 边界 ， 检 查 外 部 的 文本 。 


默认 情况 下 ， 这 个 标志 位 为 false， 但 也 可 能 改变 ， 可 以 通过 useTransparentBounds 
(7388) 和 hasTran- sparentBounds 方法 来 修改 和 查询 。Reset 方法 不 会 修改 标志 
位 。 


下 面 的 只 读数 据 保存 在 matcher 内 部 : 


当前 pattern 的 捕获 型 括号 的 数目 可 以 通过 groupCount (9377) 方法 查询 。 


目标 字符 串 中 的 match pointer 或 current location， 用 于 支持 “寻找 下 一 个 匹配 ”的 操 
作 (通过 fina 方 法 了 375)。 


目标 字符 串 中 的 append pointer, 在 查找 -替换 操作 中 (380), 复制 未 匹配 的 文本 部 分 
时 使 用 。 


表示 到 达 字 符 串 结尾 的 上 一 次 匹配 尝试 是 否 成 功 的 标志 位 。 可 以 通过 hiten 方法 
(7390) 获得 这 个 标志 位 的 值 。 


match result。 如 果 最 近 一 次 匹配 尝试 成 功 ,Java 会 将 各 种 数据 收集 起 来 ， 合 称 为 match 
result (7376), 包括 匹配 文本 的 范围 (通过 group () 方 法 ) ， 匹 配 文本 在 目标 字符 串 中 
的 起 始 和 结束 偏 移 值 (通过 start () 和 endo DA), 以 及 每 一 组 捕获 型 括号 对 应 的 信 
息 (通过 group (num)、 start (num) 和 end (num) 方 法 )。 


match-result 数据 封装 在 MatchResult 对 象 中 ， 通 过 toMatchResult 方法 获得 。 
MatchResult $A A GHJ group, start # end FH (7377). 


L 
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。 ”一 个 标志 位 ， 表 明 更 长 的 目标 文本 是 否 会 导致 匹配 失败 (匹配 成 功 之 后 才 可 用 )。 如 果 
边界 元 字符 影响 了 匹配 结果 的 生成 , 则 此 值 为 true。 可 以 通过 *equireEna 方法 查看 它 
的 值 (7390), 


上 面 列 出 的 内 容 很 多 ， 但 是 如 果 按 照 功 能 分 别 讲解 ， 便 很 容易 掌握 。 这 正 是 下 面 几 节 的 内 
容 。 把 这 一 章 作为 参考 手册 时 ， 本 章 开头 (7366) 的 列表 会 很 有 用 。 


应 用 正则 表达 式 


Applying the Regex 


把 matcher 的 正则 表达 式 应 用 到 目标 文本 时 ， 主 要 会 用 到 Matcher 的 这 些 方 法 : 


van £ind() 


此 方法 在 目标 字符 串 的 当前 检索 范围 (7384) 中 应 用 Matcher 的 正则 表达 式 ， 返 回 的 
Boolean 值 表示 是 否 能 找到 匹配 。 如 果 多 次 调用 , 则 每 次 都 在 上 次 的 匹配 位 置 之 后 尝试 
新 的 匹配 。 没 有 给 定 参数 的 fina 只 使 用 当前 的 检索 范围 (7384), 
下 面 是 简单 示例 : 
aT | ie fines = te a gic i Fxpressions"; 
Matcher m = Pattern.camspilelregex) .matcner (text); 
if (m.find()) 
System.out.println("match [" + m.group() + "]"); 


结果 是 : 
match [Mastring] 
如 果 这 样 写 : 


while (m.£ind()) 
System.out.println("match [" + m.group() + "]"); 


结果 就 是 : 


match [Mastering] 
match [Regular] 
match [Expressions] 


一 


ean £ind( int offset) 


如 果 指 定 了 整 型 参数 ,匹配 尝试 会 从 距离 目标 字符 串 开 头 offset 个 字符 的 位 置 开 始 。 如 
果 offset 为 负数 或 超出 了 目标 字符 串 的 长 度 , 会 抛 出 IndexoutofBoundsException # 
常 。 


L 
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这 种 形式 的 fina 不 会 受 当 前 检索 范围 的 影响 , 而 会 把 它 设 置 为 整个 “目标 字符 串 ”( 它 
会 在 内 部 调用 reset 方法 了 392)。 


第 400 页 的 补充 内 容 (作为 第 399 页 问题 的 答案 ) 给 出 了 恰当 的 例子 。 


:. matches () 


此 方法 返回 的 Boolean 值 表示 matcher 的 正则 表达 式 能 否 完 全 匹配 目标 字符 串 中 当前 检 
索 范围 的 那 段 文本 。 也 就 是 说 ， 如 果 匹 配 成 功 ， 匹 配 的 文本 必须 从 检索 范围 的 开头 开 
始 ， 到 检索 范围 的 结尾 结束 (默认 情况 就 是 整个 目标 字符 串 )。 如 果 检 索 范围 设置 为 默 
认 的 “所 有 文本 ”，matches 比 使 用 八 A(?:…)\zj 要 简单 。 


不 过 ,如 果 当 前 检索 范围 不 等 于 默认 情况 (384), 使 用 matches 可 以 在 不 受 anchoring- 
bounds 标志 位 (7388) 影响 的 情况 下 检查 整个 检索 范围 中 的 文本 。 


举例 来 说 ， 如 果 使 用 charBuffer 来 保存 程序 中 用 户 输入 的 文本 ， 而 检索 范围 设 定 为 
用 户 用 鼠标 选 定 的 部 分 。 如果 用 户 点 击 选 区 的 部 分 , 可 以 用 m.usePattern (urlPattern) . 
matches() 来 检查 选 定 部 分 是 否 为 URL (如 果 是 ， 则 进行 相应 的 处 理 )。 


String 对 象 也 支持 matches HH: 


"1234" .matches("\\d+"); // true 
"123!".matches("\\d+"); // false 


- lookingAt () 
此 方法 返回 的 Boolean 值 表 示 Matches 的 正则 表达 式 能 否 在 当前 目标 字符 串 的 当前 检 


索 范 围 中 找到 匹配 。 它 类 似 于 matches 方法 ,但 不 要 求 检 索 范 围 中 的 整 段 文本 都 能 匹 
配 。 


查询 匹配 结果 


Querying Match Results 


下 面 列 出 的 Matcher 方法 返回 了 成 功 匹 配 的 信息 。 如 果 正 则 表达 式 还 未 应 用 过 , 或 者 匹配 党 
试 不 成 功 ， 它 们 会 抛 出 IllegalstateException。 接 收 num BR (对 应 一 组 捕获 型 括号 ) 
的 方法 ， 如 果 给 定 的 num JER, SHH IndexoutOfBoundsException, 


if 


www.TopSage.com 


Matcher 对 象 377 


请 注意 start 和 ena 方法 ， 它 们 返回 的 偏 移 值 不 受 检索 范围 的 影响 一 一 偏 移 值 从 整个 目标 
字符 串 的 开头 开始 计算 ， 而 不 是 检索 范围 的 开头 。 
后 面 还 给 出 了 一 个 例子 ， 讲 解 其 中 大 部 分 方法 的 使 用 。 

> group() 

返回 前 一 次 应 用 正则 表达 式 的 匹配 文本 。 

groupCount () 


返回 正则 表达 式 中 与 Matcher 关联 的 捕获 型 括号 的 数目 。 在 group, start 和 end X 
法 中 可 以 使 用 小 于 此 数目 的 数字 作为 numth 参数 ， 下 文 介绍 ( 注 4)。 


0 gropul( '.: num) 


返回 编号 为 num" 的 捕获 型 括号 匹配 的 内 容 , 如 果 对 应 的 捕获 型 括号 没有 参与 匹配 , 则 
返回 nul1。 如 果 num”* 为 0， 表示 返 回 整 个 匹配 的 内 容 ，group (0) 就 等 于 group()。 


start( <=! num) 


此 方法 返回 编号 为 num” 的 捕获 型 括号 所 匹配 文本 的 起 点 在 目标 字符 串 中 的 绝对 偏 移 
值 一 一 即 从 目标 字符 串 起 始 位 置 开 始 计算 的 偏 移 值 。 如 果 捕 获 型 括号 没有 参与 匹配 ， 
则 返回 -1。 


'” start!() 
此 方法 返回 整个 匹配 起 点 的 绝对 偏 移 值 ，start () 就 等 于 start (0)。 
end(i:.. num) 


此 方法 返回 编号 为 num” 的 捕获 型 括号 所 匹配 文本 的 终点 在 目标 字符 串 中 的 绝对 偏 移 
值 一 一 即 从 目标 字符 串 起 始 位 置 开始 计算 的 偏 移 值 。 如 果 捕 获 型 括号 没有 参与 匹配 ， 
则 返回 -1。 


ini emd() 
次 方法 返回 整个 匹配 的 终点 的 绝对 偏 移 值 ，ena () 就 等 于 end(0), 
it toMatchResuit () 


此 方法 从 Java 1.5.0 开始 提供 ， 返 回 的 MatchResult 对 象 封装 了 当前 匹配 的 信息 。 它 
和 Matcher 类 一 样 ， 也 包含 上 面 列 出 的 group, start, end 和 groupCount 方法 。 


如 果 前 一 次 匹配 不 成 功 ， 或 者 Matcher 还 没有 进行 匹配 操作 ， 调 用 toMatcheResult 


会 抛 出 IllegalStateException, 


注 4: groupCount 方法 任何 时 候 都 可 调用 ， 而 这 里 列 出 的 其 他 方法 必须 在 匹配 党 试 成功 之 后 才 
可 调用 。 
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示例 


下 面 的 例子 示范 了 若干 方法 的 使 用 。 给 定 一 个 URL 字符 串 ， 这 段 代 码 会 找 出 URL 的 协议 
名 (“http” 或 是 “https')、 主 机 名 ， 以 及 可 能 出 现 的 端口 号 : 


String url = “http://regex.info/blog"; 
String regex = “(?x) “(https?):// ([*/:]+) (?:(\\d+))?"; 
Matcher m = Pattern.compile(regex) .matcher (url); 


if (m.find()) 
{ 
System.out.print ( 
"Overall [" + m.group() + "J" + 


" (from " + mstart() + " to " + mend() + ")\n" + 
"Protocol [" + m.group(1) + "J" + 

" (from " + m.start(1) + " to" + m.end(1) + ")\n" + 
"Hostname [" + m.group(2) + "]" + 

* (from. * + m.start(2) + " to " + m.end(2) + ")\n" 


); 
// group(3) 可 能 未 参与 匹配 ， 此 处 应 小 心 对 待 


if (m.group(3) == null) 
System.out.println("No port; default of '80' is assumed"); 
else { 
System.out.print ("Port is [" + m.group(3) + "] " + 
"(from " + m.start(3) + " to * + m.end(3) + ")\n"); 
} 
} 
执行 的 结果 是 : 


Overall [http://regex.info] (from 0 to 17) 
Protocol [http] (from 0 to 4) 

Hostname [regex.info] (from 7 to 17) 

No port; default of '80' is assumed 


简单 查找 - 蔡 换 


Simple Search and Replace 


上 面 介绍 的 方法 足够 进行 查找 -替换 操作 了 ， 只 是 比较 麻烦 ， 但 是 Matcher 提供 了 简便 的 方 
法 。 


String replacehlLlL(Srrino replacement) 
返回 目标 字符 串 的 副本 ， 其 中 Matcher 能 够 匹配 的 文本 都 会 被 替换 为 replacement， 具 
体 处 理 过 程 在 380 页 。 


此 方法 不 受 检索 范围 的 影响 ( 它 会 在 内 部 调用 reset HE), 不 过 第 382 页 介绍 了 在 检 
索 范 围 中 进行 这 样 操作 的 方法 。 


String 类 也 提供 了 replaceall 的 方法 ， 所 以 ; 


string.replaceAll (regex, replacement) 
就 等 于 : 


Pattern.compile(regex) .matcher(string) .replaceAll (replacement) 
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nq replaceFirst(3:: :29 replacement) 


此 方法 类 似 replacea1l1l, 但 它 只 对 第 一 次 匹配 (如 果 存 在 ) 进行 替换 。 
String 类 也 提供 了 replaceFirst HH, 


ring quoteReplacement (String text) 


此 static 方法 从 Java 1.5 开始 提供 , 返回 text 的 文字 用 作 replacement 的 参数 。 它 为 text 
副本 中 的 特殊 字符 添加 转 义 ， 避 免 了 下 一 页 讲解 的 正则 表达 式 特 殊 字符 处 理 (下 一 节 


也 给 出 了 Matcher .quoteReplacement 的 例子 ) 。 


简单 查找 - 普 换 的 例子 


下 面 的 程序 将 所 有 的 “Java 1.5” 改 为 “Java 5.0”， 用 市 场 化 的 名 称 取代 开发 名 称 : 


y EEx! "BeEore Java 1.5 was Java 1.4.2, Aftor Javā 
triny regex = "\ easel ` \s*l wv. 53bt: 
ii n Patti lle(regex) .matcher (Lexr); 
String — = m. n-replacealt (" Java 5. 0°); 
SYSULRL . Pr: Infresuits; 
结果 是 : 


Before Java 5.0 was Java 1.4.2. After Java 5.0 is Java 1.6 


如 果 pattern 和 matcher 不 需要 复 用 ， 可 以 使 用 链 式 编程 


Pattern.compile("\\bJava\\s*1\\.5\\b") .matcher (text) .replaceAll ("Java 5.0") 


(如 果 单 个 线程 中 需要 多 次 用 到 同一 pattern， 预 编译 pattern 对 象 可 以 提升 效率 372) 
对 正则 表达 式 稍 加 修改 ， 就 可 以 用 它 来 把 “Java 1.6” 改 为 “Java 6.0”( 当 然 也 需要 修改 
replacement FFE, HERL FH). 


Pattern.compile("\\bJava\\s*1\\. ([56])\\b") .matcher (text) .replaceAll ("Java $1.0") 


对 于 同样 的 输入 文本 ， 结 果 如 下 : 

Before Java 5.0 was Java 1.4.2. After Java 5.0 is Java 6.0 
如 果 只 需要 替换 第 一 次 出 现 的 文本 ， 可 以 使 用 replaceFirst， 而 不 是 replaceAll, BRT 
这 种 情况 , 还 有 一 种 情况 可 以 使 用 replaceFirst， 即 明确 知道 目标 字符 串 中 只 存在 一 个 匹 


配 时 ， 使 用 replaceFirst 可 以 提高 效率 (如果 了 解 正则 表达 式 或 是 目标 字符 串 ， 可 以 预 
知 这 一 点 )。 
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replacement 参数 


replaceAll 和 replaceFirst 方法 (以 及 下 一 节 的 appendReplacement 方法 ) 接收 的 
replacement 参数 在 插入 到 匹配 结果 之 前 ， 会 进行 特殊 处 理 : 


° SI, S2 ZAR BRAM A S ARE S DACAAR (S0 RHR A BTA E 
配 的 文本 ) 。 


e 如 果 “s” 之 后 出 现 的 不 是 ASCII 的 数字 , 会 抛 出 IllegalArgumentException 异常 。 


“$” 之 后 的 数字 ， 只 会 应 用 “有 意义 ”的 部 分 。 如 果 只 有 3 组 捕获 型 括号 ， 则 “$25 
会 被 视 为 $2 然后 是 “5 ， 而 此 时 $6 会 抛 出 IndexOutOfBoundsException。 


。 PAAR SURMISE, 所 以 “、$” 表 示 美 元 符号 。 同 样 的 道理 ,“\、、” 表示 反 斜 
线 (在 Java 的 字符 串 中 , 表示 正则 表达 式 中 的 “、\、” 需 要 用 四 个 斜 线 “"\\、\、' )。 同 样 ， 
如 果 有 12 组 捕获 型 括号 , 而 我 们 希望 使 用 第 一 组 捕获 型 括号 匹配 的 文本 , 然后 是 “2”， 
应 该 是 这 样 “$1\2"。 


nA EAE replacement 字符 串 的 内 容 , 最 好 使 用 Mat cher .quoteReplacement 方法 ,确保 
不 会 出 错 。 如 果 用 户 的 正则 表达 式 是 uRegex, replacement 是 uRep1， 下 面 的 做 法 可 以 确保 
替换 的 安全 : 


Pattern.compi le (uRegex) .matcher (text) .replaceAl] (Matcher. quoteReplacement (uRep!) ) 


高 级 查找 - 蔡 换 


Advanced Search and Replace 


有 两 个 方法 可 以 直接 操作 Matcher 的 查找 -替换 过 程 。 它 们 配合 起 来 ， 把 结果 存 信 用户 指定 
的 stringBuffer 中 。 第 一 种 方法 每 次 匹配 之 后 都 会 调用 ， 在 result 中 存 入 replacement 字 
符 串 和 匹配 之 间 的 文本 。 第 二 种 方法 会 在 所 有 匹配 完成 之 后 调用 ， 将 目标 字符 串 中 最 后 的 
文本 拷贝 过 来 。 


“cr appendReplacement (Sr ouiiutfer result, Sring replacement) 


在 正则 表达 式 应 用 成 功 之 后 (通常 是 find) 马上 调用 此 方法 会 把 两 个 字符 串 添加 到 指 
AN result 中 : 第 一 个 是 原始 目标 字符 串 匹 配 之 前 的 文本 ， 然 后 是 经 过 上 面 讲解 的 特 
殊 处 理 的 replacement FHE, 


iii 
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举例 来 说 ， 如 果 matcher m 与 正则 表达 式 \w+, 和“-->one+test<--” 相 联系 ，while 
循环 的 第 一 轮 情况 如 下 : 


while (m.find({)) 
m.appendReplacement (sb, "XXX") 


find 找到 下 画 线 标 注 的 部 分 “-->ene+test<-- 。 


然后 ， 第 一 次 appendReplacement 调用 会 在 StringBuffer result 中 加 入 匹配 之 前 的 
文本 “--> ， 跳 过 匹配 的 文本 ， 再 插入 replacement FIFE ‘xxx’, 


While 循环 的 第 二 轮 ，finG 匹配 “-->one+testr--"。 此 时 调用 appendreplacement 
会 给 sb 附加 上 匹配 之 前 的 文本 “+ ”， 然 后 仍然 是 字符 串 “xxx "。 


这 样 sb 的 值 就 是 '-->xxx+xxx' , m 在 原始 目标 字符 串 中 对 应 的 位 置 是 '-->one+test. 
<-- 。 现 在 该 使 用 appendTail 方法 了 ， 下 文 将 会 介绍 。 


appendTail (=: 7: nguti result) 


找到 所 有 匹配 之 后 (或 者 是 ， 找 到 期 望 的 匹配 之 后 一 一 此 时 用 户 可 以 停 小 匹配 过 程 )， 
这 个 方法 将 目标 字符 串 中 剩 下 的 文本 附加 到 提供 的 StringBuffer 中 。 


在 上 例 中 ， 接 下 来 就 是 : 


m.appendTail' sb) 


将 “<--” 附 加 到 sb。 这 样 就 得 到 “-->xxxX+XXx<--”， 查 找 -替换 完成 。 


查找 -替换 示范 


下 面 实现 了 一 个 自己 的 replaceall 的 方法 (并非 必须 ， 只 是 作为 示范 )。 


public static String replaceAll(Matcher m, String replacement) 
{ 
m.reset(); // 保证 Matcher 不 受 之 前 的 影响 
StringBuffer result = new StringBuffer(); // 生成 用 于 替换 的 副本 
while (m,final()) 
m.appendReplacement (result, replacement); 
m.appendTail (result); 
return result.toString(); // 转换 为 Sring， 然 后 返回 
} 


ES Java 内 建 的 replaceall 方法 一 样 ， 它 不 受 检索 范围 (7384) 的 影响 ， 而 是 在 查找 - 
替换 之 前 重 置 检索 范围 。 


iti 


www.TopSage.com 


382 第 8 章 : Java 


为 了 弥补 这 个 缺憾 , 下面 的 replaceall 只 在 检索 范围 中 进行 , 修改 和 新 增 的 代码 会 标注 出 
来 : 


ihiie static String replaceAllRegioniMatcher m, String replacement) 


Integer start = m.regionStart(); 
Integer end = m.regionEnd(); 


m. reset (). es end); // EE matcher, 之 后 恢复 region 
StringBuffer result new StringRuffer(); 7 生成 用 于 替换 的 副本 


resuir.toftrinat);: 7 转换 为 SrinG、 然 后 近 回 


这 里 使 用 “方法 链 (译注 1)” 结 合 reset 和 region， 详 细 讲 解 请 参阅 第 389 页 。 


下 面 的 程序 更 加 完善 ， 它 将 metric 变量 中 的 摄氏 温度 转换 为 华氏 温度 : 


// 构建 一 个 matcher， 匹 配 "Metric" 变 量 中 后 面 跟 有 "C" 的 数值 

// 下 面 的 正则 表达 达 式 是 : '( \d+(?:\.\d* )? J)CVbl 

Matcher m = Pattern.compile("(\\d+(?:\\.\\d*)?)C\\b") .matcher (metric) ; 

StringBuffer result = new StringBuffer(); // 生 成 用 于 替换 的 副本 

while (m.find()}) 

{ 
float celsius = Float.parseFloat(m.group(1)); // 得 到 数值 ， 转 换 为 浮 点 数 
int fahrenheit = (int) (celsius * 9/5 + 32); // 转换 为 华氏 温度 
m.appendReplacement (result, fahrenheit + "F"); // 插入 

} 

m.appendTail (result); 

System.out.println(result.toString()); // 显示 结果 


如 果 metric 变量 包含 “from 36.3c to 40.1c.”, RE “from 97F to 104F.”, 


原 地 查找 - 蔡 换 


In-Place Search and Replace 


现在 还 只 出 现 过 对 string 对 象 使 用 java.util.regex 的 例子 ， 但 是 Matcher 其 实 适 用 于 
任何 实现 了 charSequence RAMA, 所 以 我 们 能 够 对 目标 文本 进行 实时 的 、 原 地 {in place) 
的 修改 。 


StringBuffer 和 StringBuilder 是 两 种 常用 的 实现 了 charseauence 接口 的 类 ， 前 者 保 
证 线程 安全 性 ， 但 效率 略 低 。 这 两 者 都 可 以 作为 string 来 使 用 , 但 它们 的 值 可 以 变化 。 本 
书 中 的 例子 使 用 了 stringBuilder， 但 如 果 在 多 线程 环境 中 ， 请 使 用 scringBuffer。 


译注 1: method chaining, +} “tX thi”, 
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这 个 简单 的 例子 在 StringBuilder 中 搜索 大 写 单词 ， 将 它们 替换 为 小 写 形 式 (i 5): 


StringBuilder text = new StringBuilder("It's SO very RUDE to shout!"); 
Matcher m = Pattern.compile("\\b[\\p{Lu}\\p{Lt}]+\\b") .matcher (text); 
while (m.find()) 

text.replace(m.start(), m.end(), m.group().toLowerCase()); 
System.out.println(text); 


结果 是 : 


It’s BO very rude to shout! 


其 中 匹配 了 两 次 ， 调 用 了 两 次 text .replace。 头 两 个 参数 指定 需要 替换 的 文本 范围 ( 跳 过 
表达 式 匹配 的 文本 )， 然 后 是 用 作 replacement 的 文本 (也 就 是 匹配 文本 的 小 写 形 式 ) 。 


因为 replacement 和 匹配 文本 长 度 相同 ， 原 地 的 查找 -替换 很 简单 。 如 果 不 需要 迭代 进行 查找 
-替换 ， 这 种 方法 非常 方便 。 


长 度 变化 的 替换 


如 果 replacement 的 长 度 不 同 于 要 赫 换 文本 的 长 度 ， 情 况 就 复杂 起 来 。 对 目标 字符 申 的 修改 
是 在 “背后 ”进行 的 ， 所 以 “匹配 指针 (match pointer)”( 在 目标 字符 串 中 进行 下 一 次 fina 
的 开始 位 置 ) 会 发 生 错 误 。 


要 解决 这 个 问题 , 我 们 可 以 自己 维护 匹配 指针 , 明确 告诉 find 下 一 次 尝试 应 该 从 何 处 开始 。 
下 面 的 例子 做 了 这 样 的 改进 ， 在 需要 插 人 的 小 写 文本 两 端 添加 了 <b>…</b>: 


StringBuilder text = new StringBuilder("It's SO very RUDE to shout!"); 
Matcher m = Pattern.compile("\\bI[\\p{Lu}\\p{Lt}]+\\b") .matcher (text); 
int matchPointer = 0;// 首先 从 字符 事 起 始 位 置 开始 
while (m.find(matchPointer)) { 
matchPointer = m.end(); / 记录 本 次 匹配 结束 的 位 置 
text.replace(m.start(), ~.end(), "<b>"+ m.group().toLowerCase() +"</b>); 
matchPointer += 7; // 算 上 添加 的 '<b>' 和 '</b>' 
} 
System.out.printin(text); 


结果 是 : 


It’s <b>so</b> very <b>rude</b> to shout! 


5: 代码 中 的 表达 式 是 \b[\p{Lu}\p{Lt}]+\bl。 在 第 3 章 (7123) 介绍 过 ，\p{Lu} 匹 配 
Unicode 中 的 所 有 大 写字 母 , \p{Lt} 匹 配 首 字母 形式 字符 。 对 应 ASCI 编码 的 正则 表达 式 
是 [\b[RA-Z]+N\bl。 
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Matcher 的 检索 范围 


The Matcher’ s Region 


从 Javal.5 开始 ，Matcher 支持 可 变化 的 检索 范围 ， 通 过 它 ， 我 们 可 以 把 匹配 尝试 限制 在 目 
标 字符 串 之 中 的 某 个 范围 。 通 常情 况 下 ，Matcher 的 检索 范围 包含 整个 目标 字符 串 ， 但 可 以 
通过 region 方法 实时 修改 。 


下 面 的 例子 检索 HTML 代码 字符 串 ， 报 告 不 包含 ALT 属性 的 image tag。 对 同一 段 文 本 
(HTML)， 它 使 用 了 两 个 Matcher: 一 个 寻找 image tag， 另 一 个 寻找 ALT 属性 。 


尽管 两 个 Matcher 应 用 到 同一 个 字符 串 ， 但 它们 的 关联 只 局 限于 ， 用 找到 的 image tag 来 限 
定 寻 找 ALT 属性 的 范围 。 在 调用 ALT-matcher 的 find 方法 之 前 ,我 们 用 刚刚 完成 的 image-tag 
的 匹配 来 设 定 ALT-matcher 的 检索 范围 。 


单 拿 出 image tag 的 body 之 后 ， 就 可 以 通过 查找 ALT 来 判断 当前 的 tag 内 是 否 包含 ALT 属 
tE: 


// 查找 image tag 的 matcher。 变 量 'html ' 包 含 需要 处 理 的 HTM1 代码 
Matcher mImg = Pattern.compile("(?id)<IMG\\s+({.*?)/?>").matcher (html); 


// 查找 ALT 属性 的 matcher (应 用 于 刚刚 找到 的 IMG tag 中 ) 
Matcher mAlt = Pattern.compile("(?ix)\\b ALT \\s* =").matcher (html); 


// 对 html 中 的 每 个 image tag 

while (mImg.find()) { 
// 把 查找 范围 局 限 在 刚刚 找到 的 tag 中 
mAlt.region(mImg.start(1), mImg.end(1) ); 


// 如 果 没 有 找到 ， 则 报错 ， 输 出 找到 的 整个 image tag 
if (! mAlt.find()) 
System.out.println("Missing ALT attribute in: " + mImg.group()); 
} 


或 许 在 一 处 指定 目标 字符 串 (创建 male Matcher 时 )， 另 一 处 指定 检索 范围 (调用 
mAlt.region 了 时) 的 做 法 有 些 怪 异 。 果 真如 此 的 话 ， 我 们 可 以 为 male 创建 虚构 的 目标 字符 
RA (一 个 空 字 符 串 )， 然后 每 次 都 调用 mAlt.reset (html) .region(…)。 调 用 reset 可 能 
会 降低 些 效率 ， 但 是 同时 设 定 目标 字符 串 和 检索 范围 的 逻辑 更 加 清晰 。 


无 论 采 取 哪 种 办 法 ， 都 必须 明白 ， 如 果 不 设 定 ALT Matcher 的 检索 范围 ， 对 它 调 用 find 就 
会 检索 整个 目标 字符 串 ， 返 回 无 关 的 “ALT=” 属 性 。 


下 面 继续 完善 这 个 程序 ， 返 回 找到 的 image tag 在 HTML 代码 中 的 行 数 。 我 们 首先 隔离 出 
image tag 之 前 的 HTML 代码 ， 然 后 计算 其 中 的 换行 符 数 。 
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标注 部 分 为 新 增 代码 : 


// 查找 image tag tj matcher, 变量 'html ' 包 含 需要 处 理 的 HTML 代码 
Matcher mImg = Pattern.compile("(?id)<IMG\\s+(.*?)/?>").matcher (html); 
// 查找 ALT 属性 的 matcher (应 用 于 刚刚 找到 的 IMG tag F) 
Matcher mAlt = Pattern.compile("(?ix)\\b ALT \\s* =") .matcher (html); 
// Rikt H Matcher 
Matcher mLine = Pattern.compile("\\n") .matcher(html1); 
// 对 HTML 中 的 每 个 img tag ... 
while (mImg.find()) 
{ 
// 把 查找 范围 局 限 在 刚刚 找到 的 上 ag 中 
mAlt.region(mImg.start(1), mImg.end(1) ); 
// 如 果 没 有 找到 ， 则 报错 ， 输 出 找到 的 整个 image tag 
if (! mAlt.find()) { 
// 计算 当前 image tag ZHHRTRHKE 
mLine.region(0, mImg.start()); 
int lineNum = 1; // £—ff"*FH1 
while (mLine.find()) 


lineNum++; // #8 H—A+R4 RLM 1 
System.out.printin("Missing ALT attribute on line " + lineNum); 


) 
} 


与 之 前 一 样 , 每 次 设 定 ALT Matcher 的 检索 范围 时 , 都 使 用 image matcher 的 start (1) 方法 
得 到 image tag body 在 HTML 中 的 起 始 位 置 。 相 反 ， 在 设 定 换行 符 匹配 的 检索 范围 终点 时 ， 
使 用 start () 方 法 来 判断 整个 image tag 的 开始 位 置 (也 就 是 换行 符 计算 的 终点 )。 


几 点 提醒 


记 住 , 某 些 检 索 相 关 的 方法 并 非 不 受 检 索 范 围 的 影响 , 而 是 它们 在 内 部 调用 了 reset 方法 ， 
把 检索 范围 设 定 为 默认 的 “全 部 文本 ”。 


。 ” 受 检索 范围 影响 的 查找 方法 : 


matches 
lookingAt 
find() (不 带 参 数 ) 


。 ”会 重 置 matcher 及 其 检索 范围 的 方法 : 


find(text) ( 带 一 个 参数 ) 
replaceAll 
replaceFirst 


reset (无 须 多 言 ) 


另外 请 记 住 ， 匹 配 结果 数据 中 的 偏 移 值 (也 就 是 start 和 end 方法 返回 的 数值 ) 是 不 受 检 
索 范 围 影响 的 ， 它 们 只 与 整个 目标 字符 串 的 开始 位 置 有 关 。 


id 
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设 定 及 查看 检索 范围 的 边界 
与 设 定 及 查看 检索 范围 边界 的 方法 有 3 个: 
Matcher region(int start, int end) 


将 matcher 的 检索 范围 设 定 在 整个 目标 字符 串 的 start 和 end 之 间 ， 数 值 均 从 目标 字符 
串 的 起 始 位 置 开 始 计算 。 它 同样 会 重 置 Matcher, 将 “匹配 指针 ”指向 检索 范围 的 开头 ， 
所 以 下 一 次 调用 find 从 此 处 开始 。 


如 果 没 有 重新 设 定 ， 或 是 调用 reset 方法 (无 论 是 显 式 调 用 还 是 在 其 他 方法 内 部 调用 
= 了 392) ， 检 索 范 围 都 不 会 变化 。 


返回 值 为 Matcher 对 象 本 身 ， 所 以 此 方法 可 用 于 方法 链 (7389). 
如 果 start 或 end 超 出 了 目标 字符 串 的 范围 ,或 者 start 比 end 要 大 ,会 抛 出 Indexoutof- 


BoundsException, 
t regionstart () 
返回 当前 检索 范围 的 起 始 位 置 在 目标 字符 串 中 的 偏 移 值 ， 默 认为 0。 
int regionEnd() 
返回 当前 检索 范围 的 结束 位 置 在 目标 字符 串 中 的 偏 移 值 ， 默 认为 目标 字符 串 的 长 度 。 


因为 region 方法 要 求 同 时 提供 start 和 end, 如 果 只 希望 设置 其 中 一 个 , 可 能 不 太 方便 操作 。 
表 8-4 给 出 了 方法 。 


表 8-4: 设 定 检索 范围 的 单个 边界 


rey — aw: ~ 
: T t TE ane 


明确 设 定 m.region(start, m.regionEnd()); 
不 修改 m.region(m.regionStart(), end); 
明确 设 定 m.reset().region(start, m.regionEnd()); 
不 修改 明确 设 定 m.region(0, end); 
超越 检索 范围 


如 果 将 检索 范围 设 定 为 整个 目标 字符 串 中 的 一 段 ， 正 则 引擎 会 忽略 范围 之 外 的 文本 。 也 就 
是 说 ， 检 索 范 围 的 起 始 位 置 可 以 用 “匹配 ， 而 它 可 能 并 不 是 目标 字符 串 的 起 始 位 置 。 


不 过 ， 某 些 情 况 下 也 可 以 检查 检索 范围 之 外 的 文本 。 启 用 transparent bounds 能 够 让 “考察 
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(looking) ”结构 检查 范围 之 外 的 文本 ， 如 果 禁 用 anchoring bounds， 则 检索 范围 的 边界 不 
会 被 视 为 输入 数据 的 起 始 /结束 位 置 (除非 实际 情况 如 此 )。 


修改 这 两 个 标志 位 的 理由 与 修改 默认 检索 范围 密切 相关 。 之 前 用 到 了 检索 范围 的 例子 都 不 
需要 设 定 这 两 个 标志 位 一 一 与 检索 范围 相关 的 查找 既 不 需要 销 点 也 不 需要 “考察 ”结构 。 


如 果 程 序 把 需要 用 户 编辑 的 文本 存放 在 charBuffer 中 ， 用 户 希 望 执行 查找 -替换 操作 ， 就 
应 当 把 操作 的 范围 限定 在 光标 之 后 的 文本 中 ， 所 以 应 当 把 检索 范围 的 起 始 位 置 设 定 为 当前 
光标 所 在 的 位 置 。 如 果 用 户 的 光标 指向 下 面 的 位 置 : 


Madagas car is much too large to see on foot, so you'll need a car. 


要 求 把 \bcar\bl 替换 为 “automobile" 。 设 定 了 检索 范围 之 后 (即将 其 设 定 为 光标 之 后 的 文 
本 ), 你 可 能 会 很 惊奇 地 发 现 第 一 次 匹配 就 是 在 检索 范围 的 开头 :“Madagascar'。 这 是 因为 
默认 情况 下 transparent bounds 标志 位 设 定 为 false， 因 此 "\b, 将 检索 范围 起 始 位 置 设 定 为 文 
本 的 起 始 位 置 ， 而 “看 不 到 ” 左 侧 还 有 字符 。 如 果 将 transparent bounds 设 定 为 true,"\b, 就 
ERR c ZADETA ‘s’, Aik \b: 不 能 匹配 。 





Transparent Bounds 
与 这 个 标志 位 相关 的 方法 有 两 个 : 
>- useTransparentBounds(bocican b) 
IŁ transparent bounds 的 值 。 默 认为 false。 
此 方法 返回 Matcher 本 身 ， 故 可 用 在 方法 链 中 。 
boolean hasTransparentBounds () 
如 果 transparent 生效 ， 则 返回 true, 


Matcher 的 transparent-bounds 默认 为 如 lse。 也 就 是 说 检索 范围 的 边界 在 顺序 环视 、 逆 序 环视 
和 单词 分 界 符 “ 考 察 ”时 是 不 透明 的 。 这 样 ， 正 则 引擎 不 会 感知 到 检索 边界 之 外 的 字符 〈 注 
6)。 


注 6: Java 1.5 Update 7 中 有 个 bag， 我 已 经 报告 给 Sun。 使 用 Pattern.MULTILINE 之 后 ， 如 果 
之 前 正好 有 一 个 行 终结 桂 ， 即 使 已 经 取消 了 anchoring bounds, ^) (如 果 修 改 了 检索 边界 ， 
它 可 以 看 作 革 种 查看 结构 ) 也 可 以 匹配 检索 范围 的 起 始 位 置 。 


if 
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也 就 是 说 尽管 检索 范围 的 起 始 位置 可 能 在 某 个 单词 内 部 ，\b 仍然 能 够 匹配 一 一 它 看 不 到 之 
前 的 字母 。 
下 面 的 例子 说 明了 transparent bounds 设置 为 false (BRIA) 的 情况 : 

String regex = "\\bcar\\b"; // "b car\b 

String text = “Madagascar is best seen by car or bike."; 

Matcher m = Pattern.compile( regex) .matcher (text); 

m.region(7, text.length()); 


m.find(); 
System.out.println("Matches starting at character " + m.start()); 


结果 是 : 也 就 是 说 尽管 检索 范围 的 起 始 位 置 可 能 在 某 个 单词 内 部 ,，\b, 仍然 能 够 匹配 一 一 它 
看 不 到 之 前 的 字母 。 


Matches starting at character 7 


单词 分 界 符 的 确 匹 配 了 检索 范围 的 起 始 位 置 ， 即 Madagas car， 尽 管 此 处 根本 不 是 单词 的 
边界 。 如 果 不 设 定 transparent bounds， 单 词 分 界 符 就 “受骗 (spoofed)” 了 。 


如 果 在 find 之 前 添加 这 条 语句 : 


m.useTransparentBounds (true); 


结果 就 是 : 


Matches starting at character 27 


因为 边界 现在 是 透明 的 ， 引 擎 可 以 感知 到 起 始 边界 之 前 有 个 字母 “s" ， 所 以 人 bi 在 此 处 无 
法 匹配 。 于 是 结果 就 成 了 “…by*caror*bike.”。 


同样 , transparent-bounds 只 有 在 检索 范围 不 等 于 “整个 目标 字符 申 ” 时 才 有 意义 。 即使 reset 
方法 也 不 会 重 置 它 。 


Anchoring bounds 


与 anchoring bounds 有 关 的 方法 有 : 
Matcher useAnchoringBounds (Boolean b) 

i4 matcher 的 anchoring-bounds 的 值 ， 默 认为 true。 

此 方法 会 返回 matcher 对 象 本 身 ， 故 可 用 于 方法 链 中 。 
boolean hasAnchoringBounds ( () 

如 果 启 用 了 anchoring bounds， 则 返回 true, AME false, 


默认 状态 下 ，anchoring bounds 为 trwe ， 也 就 是 说 行 锚 点 (^ \a s z \z) 能 匹配 检索 范围 
的 边界 ， 即 检索 范围 不 等 于 整个 目标 字符 串 。 将 它们 设置 为 false 表示 行销 点 只 能 匹配 检索 
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范围 内 ， 整 个 目标 字符 串 中 符合 规定 的 位 置 。 


禁用 anchoring bounds 的 理由 可 能 与 使 用 transparent bounds 一 样 ， 当 用 户 的 “光标 不 在 整 段 
文本 的 起 始 位 置 时 ”保证 语意 的 完备 。 


与 transparent-bounds 一 样 ，anchoring bounds 也 只 有 在 检索 范围 不 等 于 “整个 目标 字符 串 ” 
时 才 有 意义 。 即 使 reset 方法 也 不 会 重 置 它 。 


方法 链 


Method Chaining 


下 面 的 程序 初始 化 一 个 Matcher， 并 设 定 某 些 选项 : 


Pattern p = Pattern.compile(regex); // 编译 regex 

Matcher m = p.matcher(text); // # regex 5 text 建立 联系 ,创建 Matcher 
m.region(5, text.length()); // 将 检索 范围 设 定 为 从 第 5 个 字 桩 开始 
m.useAnchoringBounds (false); // “^ 之 类 不 能 匹配 检索 范围 的 起 始 位 置 
m.useTransparentBounds (true) ; // 考察 结构 能 够 超越 检索 范围 


在 前 面 的 例子 中 我 们 看 到 ， 如 果 创 建 Matcher 之 后 不 再 需要 regex， 可 以 把 前 面 两 步 合 并 起 
来 : 


Matcher m = Pattern.compile(regex) .matcher (text); 


R.region(5s, text.length(}}; ii 将 检索 范 园 设 定 为 从 第 5 个 字符 开始 
m. useAnchoringBounds (false); i ^ 之 类 不 能 匹配 检索 范围 的 起 始 位 置 
m,useTransparent Bounds (true) // RH HA ww EID 


不 过 ， 因 为 Matcher 的 两 个 方法 会 返回 Matcher 本 身 ， 可 以 把 它们 整合 成 一 行 (尽管 因为 排 
版 的 原因 必须 列 为 两 行 ) : 


Matcher m = Pattern.compile{regex) .matcher(text).region(5, text.length() ) 
. useAnchoringBounds (false) .useTransparent Bounds (true); 


功能 并 没有 增加 ， 但 用 起 来 更 加 简便 。 这 种 “方法 链 ” 格 式 紧 次 ， 一 行程 序 可 能 很 难 对 应 
到 单个 步骤 的 文档 ， 不 过 ， 好 的 文档 重 在 说 明 “ 为 什么 ”而 不 是 “干什么 ， 所 以 这 可 能 并 
不 是 个 问题 。 在 第 399 页 的 程序 中 ， 使 用 方法 链 可 以 保证 格式 紧凑 清晰 。 


构建 扫描 程序 


Methods for Building a Scanner 


Java 1.5 的 matcher 提供 了 两 个 新 方法 ，hitEnd 和 reauireEnda， 它 们 主要 用 来 构建 扫描 程 
FF (Scanner) 。 扫 描 程 序 将 字符 流 解析 为 记号 (token) 流 。 举 例 来 说 ， 编 译 器 的 扫 找 程序 


会 把 “var*<'34” 人 解析 为 三 个 记号 : INDENTIFIER*LESS_THAN*INTEGER。 


Hl 
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这 两 个 方法 帮助 扫描 程序 决定 ， 刚 刚 完成 的 匹配 尝试 的 结果 是 否 应 该 用 米 解释 
(interpretation) 当前 输入 。 一 般 来 说 ， 只 要 其 中 一 个 返回 true， 就 表示 在 做 出 决定 之 前 还 
应 该 输入 更 多 的 数据 。 例 如 ， 如 果 当 前 的 输入 数据 (比如 用 户 在 交互 式 调试 器 中 输入 的 命 
令 ) 是 单个 字符 “< ,最 好 还 是 看 看 下 一 个 字符 是 否 “= ， 才 能 决定 这 个 记号 是 LESS_THAN 


还 是 LESS_THAN_OR_EQUAL, 


在 大 多 数 应 用 正则 表达 式 的 项 目 中 ， 这 两 个 方法 可 能 派 不 上 用 场 ， 可 是 一 旦 需要 ， 它 们 就 
是 不 可 替代 的 。 在 这 些 不 常见 的 场合 ，Java 1.5 中 hitend 方法 存在 的 bug 就 很 让 人 恼火 。 
不 过 ， 看 起 来 Java 1.6 已 经 修正 了 这 个 错误 ，Java 1.5 中 的 解决 办 法 将 在 本 章 末 尾 介 绍 。 


构建 扫描 程序 已 经 远 远 偏 离 了 本 书 的 主旨 ， 所 以 我 只 会 介绍 些 具 体 方法 的 定义 ， 并 给 出 例 
F (如 果 你 确实 需要 扫描 程序 ， 应 该 去 看 看 java .util .scanner)。 


boolean hitEnd() 
(Java 1.5 中 这 个 方法 是 不 可 靠 的， 解决 办 法 参见 第 392 页 ) 。 


此 方法 表示 , 正则 引擎 在 上 一 次 匹配 尝试 中 , 是 否 检查 了 输入 数据 结束 之 后 的 数据 (而 
无 论 上 一 次 匹配 是 否 成 功 ) 。 其 中 包含 \bl 和 $ 之 类 的 边界 检查 。 


如 果 hitEnd 返回 true, 则 输入 更 多 数据 可 能 会 改变 匹配 结果 (匹配 成 功 变 为 江 配 失败 ， 
匹配 失败 变 为 匹配 成 功 , 或 者 匹配 文本 发 生变 化 )。 相 反 ， 如 果 返 回 false， 则 匹配 结果 
已 经 确定 ， 和 输入 更 多 的 数据 也 不 会 改变 匹配 结果 。 


常见 的 应 用 是 ， 如果 匹配 成 功 , 而 hicend 返回 tue， 则 必须 等 待 更 多 的 输入 数据 才能 
最 后 做 出 决定 。 如 果 匹 配 失败 ， 而 hitend 返回 false， 应 该 期 待 更 多 的 输入 数据 ， 而 
不 是 报告 语法 错误 。 


boolean requireEnd() 


此 方法 只 有 在 匹配 成 功 之 后 才 有 意义 ， 它 表示 正则 引擎 的 匹配 成 功 与 否 是 否 受 输入 数 
据 结 尾 的 影响 。 也 就 是 说 ， 如果 requireEnd 返回 tue, 更 多 的 输入 数据 可 能 导致 匹配 
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尝试 失败 ， 如 果 返 回 false， 更 多 的 输入 数据 可 能 改变 匹配 的 细节 ， 但 不 会 导致 匹配 失 
败 。 


常见 的 应 用 是 ， 如 果 requireEnd 返回 tue, 在 最 后 做 出 决定 之 前 ， 必须 接受 更 多 的 输 
入 数据 。 


hitEnd 和 requireEnd 都 受到 检索 范围 的 影响 。 


使 用 hitEnd 和 requireEnd 的 例子 


K 8-5 给 出 了 在 lookingAt 搜索 之 后 使 用 hitEnd 和 requireEnad 的 例子 。 所 给 的 两 个 例子 
虽然 很 简单 ， 但 足够 解释 这 两 个 方法 。 


表 8-5: 在 lookingAt 搜索 之 后 使 用 hitEnd 和 requireEnd 的 例子 


. z P< A < 
PE A-a stu = A = is š zx 
uke o eta oa | è 










1234’ 
*1234*>*567' 
Bal 
*>*567' 


‘s= 






\d+\b| [><] =? 
\d+\b| [><] =? 
\d+\b| [><] =? 
\d+\b| [><] =? 
\d+\b]| [><] =? 
\d+\b| [><] =? 
\d+\b| [><] =? 
(set | setup) \b 























“>=°567 ' 
‘oops’ 





(set | setup) \b 









10 | (set | setup) \b ‘setu’ 

11 | (set|setup) \b ‘setup’ 
12 | (set|setup)\b | ‘set*x=3’ 
13 | (set | setup) \b ‘setup*x’ 






(set | setup) \b ‘self’ 






(set|setup) \b ‘oops’ 





K 8-5 中 上 面 7 行 的 正则 表达 式 寻 找 一 个 非 负 整 数 以 及 4 个 比较 运算 符 : 大 于 、 大 于 等 于 、 
小 于 、 小 于 等 于 。 下 面 8 行 的 正则 表达 式 更 简单 ， 寻 找 单 词 set 或 是 setup。 这 些 例子 很 
简单 ， 但 能 说 明 问 题 。 


举例 来 说 , 第 5 行 中 , 虽然 整个 目标 字符 串 都 能 匹配 ，hitEna 仍然 会 返回 false。 原 因 在 于 ， 
尽管 匹配 文本 包含 目标 字符 串 的 最 后 一 个 字符 ， 引 擎 也 不 需要 检查 之 后 的 字符 (无论 是 字 
符 还 是 分 界 符 )。 
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hitEnd 的 bug 及 解决 办 法 


Java 1.5 中 的 hitEna 方 法 存在 bug (Java 1.6 已 经 修正 ) ( 注 7), 在 某 些 特殊 情况 下 hicend 
会 得 到 不 可 靠 的 结果 : 在 不 区 分 大 小 写 的 匹配 模式 下 ， 如 果 正 则 表达 式 的 某 个 可 选 元 素 为 
单个 字符 (尤其 是 当 它 的 匹配 尝试 失败 时 ) ， 就 会 出 错 。 


例如 ， 在 不 区 分 大 小 写 的 情况 下 使 用 >=?! ( 它 作 为 大 的 正则 表达 式 的 一 部 分 ) 会 诱发 这 个 
错误 ， 因 为 “=” 是 可 选 的 单个 字符 。 在 不 区 分 大 小 写 的 情况 下 使 用 alanithe: (仍然 是 包 
含 在 大 的 正则 表达 式 中 ) 也 会 诱发 这 个 错误 ， 因 为 单个 字符 al 是 众多 多 选 分 支 之 一 ， 因 此 
是 可 选 的 。 


FT AL values?) fl \r?\n\r?\n), 


解决 办 法 解决 的 办 法 是 破坏 诱发 条 件 ， 或 者 禁用 不 区 分 大 小 写 的 匹配 (至 少 是 对 诱发 的 子 
表达 式 禁 用 ) ， 或 者 是 把 单个 字符 替换 为 其 他 元 素 ， 例 如 字符 组 。 


第 一 种 办 法 会 把 >=?, 替换 为 '(?-i:>=?),， 使 用 模式 修饰 范围 (110) 保证 不 区 分 大 小 写 
的 匹配 不 会 应 用 于 这 个 子 表达 式 (这 里 不 存在 大 小 写 的 区 别 ， 所 以 这 种 办 法 完全 没 问题 ) 。 


如 果 使 用 第 二 种 办 法 ， ‘alan|the; 就 变 成 了 '[aA] lanlthe,), 代表 了 使 用 Pattern.CASE_ 
INSENSITIVE 进行 不 区 分 大 小 写 匹 配 的 情况 。 


Matcher 的 其 他 方法 


Other Matcher Methods 


这 些 Matcher 方法 尚未 介绍 过 : 
Matener reset() 


这 个 方法 会 重新 初始 化 Matcher 的 大 多 数 信息 ， 弃 用 前 一 次 成 功 匹 配 的 所 有 信息 ， 将 
匹配 位 置 指向 文本 的 开头 ， 把 检索 范围 (7384) 恢复 为 默认 的 “全 部 文本 "。 只 有 
anchoring bounds 和 transparent bounds (9388) 不 会 变化 。 


Matcher 有 三 个 方法 会 在 内 部 调用 reset ， 因 此 也 会 重新 设 定 检索 范围 ; replacea1l1、 
replaceFirst, 以 及 只 使 用 一 个 参数 的 find, 


这 个 方法 返回 Matcher 本 身 ， 所 以 它 可 以 用 在 方法 链 中 (7389), 
注 7: 本 书写 作 过 程 中 ，Sun 告诉 我 在 “5.0u9”， 也 就 是 Java 5.0 Update 9 中 修正 了 此 bug (你 可 


能 还 记得 ，365 页 的 脚注 提 到 过 本 书 针 对 的 Java 1.5 update 7), A Java 1.6 beta 中 ， 这 个 
bug 也 ,不 存在 。 


Hi 
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teher reget(Charsequence text) 


这 个 方法 与 reset () 差不多 ， 但 还 会 把 目标 文本 改 为 新 的 String (或 者 任何 实现 
CharSequence 的 对 象 ) 


如 果 你 希望 对 多 个 文本 应 用 同样 的 正则 表达 式 ( 例 如， 对 所 读 入 的 文件 的 每 一 行 ), 使 
用 reset 方法 比 多 次 创建 新 的 Matcher 更 有 效率 。 


这 个 方法 返回 Matcher 本 身 ， 所 以 可 以 用 在 方法 链 中 (389)。 


orn pattern() 


Matcher 的 pattern 方法 返回 与 此 Matcher 关联 的 pattern 对 象 。 如 果 和 希望 观察 所 使 
用 的 正则 表达 式 ， 请 使 用 m.pattern() .pattern() ， 它 会 调用 pattern MR (AF 
相同 ， 但 对 象 不 同 ) 的 pattern 方法 (7394), 


Matcner usgePattern(Patiern p) 


从 Java 1.5 开始 添加 ， 这 个 方法 会 用 给 定 的 Pattern 对 象 替换 当前 与 Matcher 关联 的 
Pattern 对 象 。 这 个 方法 不 会 重 置 Matcher， 所 以 能 够 在 文本 的 “当前 位 置 ”开始 使 用 
不 同 的 pattern。 第 399 页 有 此 方法 实际 应 用 的 例子 和 讨论 。 


这 个 方法 返回 Matcher 本 身 ， 所 以 可 以 用 在 方法 链 中 (7389), 


String toString() 


从 Java 1.5 中 添加 ， 这 个 方法 返回 包含 Matcher 基本 信息 的 字符 申 ， 调 试 时 这 很 有 用 。 
字符 串 的 内 容 可 能 会 变化 ， 在 Java 1.6 beta FERH: 


Matcher m = Pattern.compile(*(\\w+)").matcher("*ABC 123"); 
System.out.println(m.toString()); 

m.find(); 

System.out.println(m.toString()); 


结果 是 : 


java.util.regex.Matcher[pattern=(\w+) region=0,7 lastmatch=] 
java.util.regex.Matcher [pattern=(\w+) region=0,7 lastmatch=ABC] 


Java 1.4.2 的 Matcher 类 只 有 继承 自 java.lang.Object Mf toString 方法 , 它 返回 没 
什么 信息 含量 的 字符 串 : “java.util.regex.Matcher@480457'。 


if 
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查询 Matcher 的 目标 字符 串 


Matcher 类 没有 提供 查询 当前 目标 字符 串 的 方法 ， 但 有 些 办 法 绕 过 了 这 种 限制 ， 
// 此 pattern 在 下 面 的 函数 中 使 用 ， 此 处 编译 并 保存 ， 是 为 了 提高 效率 


Static final Pattern pNeverFail = Pattern.compile("*"); 


1/ 返回 与 matcher 对 象 关联 的 旧 标 字符 囊 

public static String text (Matcher m) 

{ 
// 记 住 这 些 位 置 ， 以 备 之 后 恢复 
Integer regionStart = m.regionStart(); 
Integer regionEnd = m.regionEnd(); 
Pattern pattern = m.pattern(); 


//PARLET ROT HF 


String text = m.usePattern(pNeverFail).replaceFirst(""); 


// 恢 复 之 前 记录 的 位 置 


m,usePattern(pattern) .region(regionStart, regionEnd) ; 
// 返回 文本 


return text; 
} 


这 里 使 用 replaceFirst 方法 ， 以 及 虚构 的 pattern 和 replacement 字符 串 ， 来 取得 目标 字符 
串 的 未 经 修改 的 副本 。 其 中 它 重 置 了 Matcher， 但 也 恢复 了 之 前 的 检索 范围 。 它 不 是 特别 好 
的 解决 方案 (效率 也 不 是 很 高 ， 而 且 即 便 Matcher EER OTE NER ESE et 
String), 但 是 在 Sun 给 出 更 好 的 办 法 之 前 ， 它 还 凑合 


Pattern 的 其 他 方法 


Other Pattern Methods 


除了 主要 的 compile factories, Pattern 类 还 提供 了 一 些 辅助 方法 : 
split 
下 一 页 会 详细 讲解 两 种 形式 的 split 方法 。 
ring pattern() 
这 个 方法 返回 用 于 创建 本 pattern MEMARARSAA. 
Steing tostring() 
这 个 方法 从 Java 1.5 之 后 可 用 ， 等 价 于 pattern 方法 。 
© flags() 


这 个 方法 返回 pattern 创建 时 传递 给 compile factory 的 flag 参数 (作为 整数 )。 


idi 
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inu Quote (Suring text) 


从 Java 1.5 开始 提供 的 static 方法 ， 返 回 text 对 应 的 正则 文字 字符 串 ， 能 够 作为 
Pattern.compile 的 参数 。 例 如 ，Pattern.auotel"main()") 返 回 字符 串 ‘\Qmain 


O\E’, 作为 正则 表达 式 它 解释 为 人 omain() \E), 完全 能 够 匹配 原始 的 参数 maino’, 
TOOar matches (Strina regex, CharSequence text) 


这 个 static 方法 返回 的 Boolean 值 表示 正则 表达 式 能 否 匹 配 文 本 (与 matcher HEME 
数 一 样 ， 可 以 是 一 个 string 或 者 任何 实现 charSequence 的 对 象 了 373)。 HX, ES 
PF: 


Pattern.compile (regex) .matcher(text) .matches(); 


如 果 需 要 传递 编译 参数 ， 或 者 所 要 的 信息 不 只 是 简单 的 匹配 是 否 成 功 ， 则 应 该 使 用 之 
前 介绍 的 办 法 。 


如 果 这 个 方法 需要 多 次 调用 (例如 ,在 循环 中 , 或 者 其 他 经 常 调用 的 代码 中 )， 预先 把 
正则 表达 式 编译 为 一 个 Pattern 对 象 ， 然 后 每 次 应 用 的 效率 会 高 很 多 。 


Pattern 的 split 方法 ， 单 个 参数 


Pattern ' s split Method, with One Argument 


eplit(Charsequence text) 
pattern 的 这 个 方法 接收 文本 (一 个 CharSequence 对 象 ) ， 然 后 返回 一 个 数组 ， 包 含 由 


这 个 pattern 对 应 的 正则 表达 式 在 其 中 的 匹配 分 隔 的 文本 。scring 类 的 split 方法 也 
提供 了 同样 的 功能 。 


String[] result = Pattern.compile("\\.").split("209.204.146.22"); 
返回 4 个 字符 串 构 成 的 数组 (209°, "204` 、“146” 和 “22" ) ， 由 文本 中 的 三 个 仆 .分 隔 。 
这 个 简单 例子 只 用 单个 字符 分 隔 ， 但 其 实 我 们 可 以 使 用 任何 正则 表达 式 。 例 如 ， 你 可 以 用 
非 字 母 和 数字 的 字符 把 一 个 字符 串 粗 略 地 分 为 “单词 

String[] result = Pattern.compile(*\\W+") .split (Text); 
如 果 给 出 的 字符 串 是 “whatvs ug, poc”， 则 返回 4 个 字符 串 (‘what’, ‘s’, ‘up’, ‘Doc’), 
由 这 个 表达 式 的 3 次 匹配 (如 果 包 含 非 ASCH 文本 ， 你 可 能 需要 使 用 、\P{Lj+ ,或 
'[^p{L}\p{N}_]1 而 不 是 ^\w+ 7367) 分 隔 。 
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相 邻 匹配 之 间 的 空 元 素 


如 果 正 则 表达 式 能 够 在 文本 的 最 开头 匹配 ， 返 回 数组 的 第 一 个 元 素 应 该 是 空 字符 捉 (这 是 
一 个 合法 的 字符 串 ， 但 是 不 包括 任何 字符 )。 同 样 ， 如 果 正 则 表达 式 能 够 在 某 个 位 置 匹配 两 
次 以 上 ， 应 该 返回 空 字符 串 ， 因 为 邻近 的 匹配 “分 割 ” 了 和 零 长度 的 文本 。 例 如 : 


String[j result = Pattern.compile("\\s*,\\s*").split(", one, two, ,, 3"); 


按照 两 边 可 能 出 现 空白 字符 的 逗号 来 分 割 ， 返 回 一 个 5 个 元 素 的 数组 : BEAR, ‘one’, 
上 wo 、 两 个 空 字符 串 和 “3 。 


序列 末尾 出 现 的 所 有 空 字符 串 都 会 被 包 略 : 


String[] result = Pattern.compile(":").split(":xx:"); 


这 样 会 得 到 两 个 字符 串 : 一 个 空 字符 串 和 “xx '" 。 如 果 和 希望 保留 这 些 元 素 ， 请 使 用 下 面 介 绍 
的 双 参 数 版 本 的 split。 


Pattern 的 split 方法 ， 两 个 参数 


Pattern ` s split Method, with Two Arguments 
String!) eplit(CharSewience text, int limit) 


这 个 版 本 的 split 方法 能 够 控制 pattern 应 用 的 次 数 , 以 及 结尾 部 分 可 能 出 现 的 空 元 素 
的 处 理 策 略 。string 类 的 split 方法 也 可 以 获得 同样 效果 。 


limit 参数 等 于 0， 大 于 0， 还 是 小 于 0， 各 有 意义 。 


limit 小 于 0 
如 果 limit 小 于 0， 就 会 保留 数组 结尾 的 空 元 素 。 


String{] result = Pattern.compile(":").split(":xx:", -1); 


返回 包含 3 个 字符 串 的 数组 〈 一 个 空 字符 种， "xx" ， 然 后 是 另 一 个 空 字符 串 ) 。 


limit 等 于 0 
把 limit 设置 为 0， 等 于 不 设置 imir， 所 以 不 会 保留 结尾 的 空 元 素 。 


limit 大 于 0 


如 果 limit KFO, Wil split 返回 的 数组 最 多 包括 limit 个 元 素 。 也 就 是 说 ， 正 则 表达 式 至 多 
会 应 用 limit-1 次 。( 如 果 limit=3, WF 2 次 匹配 来 分 割 3 个 字符 串 ) 。 


itl 
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进行 limit-] 次 匹配 之 后 ， 匹 配 停止 ， 目 标 字符 串 中 其 余 的 部 分 (在 最 后 一 次 匹配 之 后 的 文 
本 ) 会 作为 结果 数组 的 尾 元 素 。 


如 果 某 个 字符 串 如 下 : 
Friedi,Jeffrey,Eric Francis,America,Ohio,Rootstown 


并 且 希 望 得 到 头 三 个 部 分 ， 你 可 以 将 字符 串 分 割 为 4 个 部 分 ( 头 3 个 部 分 是 名 字 ， 然 后 是 
最 后 的 “其 他 ”字符 串 ) : 

String[] NameInfo = Pattern.compile(",").split(Text, 4); 

// NameInfto[0] 是 姓 

// NameInfto[11 是 名 


// NameInfo[2] 是 中 名 {这 里 中 名 包括 两 个 词 ) 
// NameInfo[3] 是 其 他 部 分 ， 因 为 这 里 没 用 ， 直 接 忽 略 


为 split 设置 limit 的 理由 在 于 ， 如 果 不 需 要 更 多 地 处 理 ， 它 可 以 用 来 停止 查找 其 他 的 字符 
串 、 创 建新 字符 串 ， 限 制 数组 的 长 度 ， 提 高 效率 。 提 供 limit 能 够 限制 工作 量 。 


拓展 示例 


Additional Examples 


为 Image Tag 添加 宽度 和 高 度 属性 


Adding Width and Height Attributes to linage Tags 


这 里 给 出 个 高 级 的 例子 ， 原 地 (in-place) 查找 替换 ， 修 改 HTML， 保 证 所 有 的 image tag 都 
包含 WIDTH 和 HEIGHT 属性 (HTML 必须 是 StringBuilder, StringBuffer, 或 者 其 他 
CharSequence), 


只 要 有 一 副 图 像 没有 规定 宽度 或 者 高 度 ， 就 可 能 降低 整个 页 面 的 装载 速度 ， 因 为 浏览 器 在 
显示 这 幅 图 像 之 前 必须 读 入 整个 文件 。 如 果 包 含 了 宽度 和 高 度 的 尺寸 ， 文 本 和 其 他 元 素 就 
可 以 立刻 正确 摆 放 ， 这 样 用 户 会 感觉 页 面 读 取 速度 更 快 ( 注 8). 


如 果 找 到 image tag， 程 序 会 寻找 SRC、WIDTH 和 HEIGHT 属性 ， 如 果 存 在 ， 提 取 他 们 的 
值 。 如 果 WIDTH 和 HEIGHT 有 一 个 不 存在 ,就 先 取 回 图 像 ， 计 算 尺寸 ， 然 后 补充 上 属性 。 


如 果 WIDTH 和 HEIGHT 都 没有 ， 就 按照 图 像 的 真实 尺寸 来 设置 这 些 属性 。 如 果 存 在 一 个 ， 
就 只 需要 算出 另 一 个 属性 ， 它 的 值 是 按 比例 计算 出 来 的 〈 例 如, 如果 WIDTH 是 真实 尺寸 的 
一 半 ， 则 添加 的 HEIGHT 的 值 也 是 真实 高 度 的 一 半 ， 现代 的 浏览 器 就 是 这 样 处 理 的 )。 


注 8:“ 所 有 的 图 像 都 必须 有 size 属性"”， 这 是 Yahoo! 的 规定 ， 即 使 在 早期 也 是 如 此 。 显然 ,今天 
仍然 有 许多 流量 巨大 的 站 点 页 面 的 <img> tag 不 包含 尺寸 信息 。 
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和 第 383 页 的 代码 一 样 ， 这 个 程序 手动 维护 匹配 指针 。 它 还 使 用 了 检索 范围 (7384) MA 
法 链 (了 389)。 代 码 如 下 : 


// 匹配 独立 的 <img> tags 
Matcher mImg = Pattern.compile("(?id)<IMG\\s+(.*?)/?>").matcher (html); 
// 匹配 独立 的 tag PAS SRC, WIDTH 和 HEIGHT 属性 (所 用 的 表达 式 很 简单 ) 
Matcher mSrc = Pattern.compile("(?ix)\\bDSRC ={(\\S+)").matcher (html); 
Matcher mWidth = Pattern.compile{"(?ix)\\bWwIDTH=(\\S+)") .matcher (html); 
Matcher mHeight= Pattern.compile(” (?ix) \\bHEIGHT=(\\S+)").matcher (html); 
int imgMatchPointer = 0; // 第 一 次 搜索 从 字符 事 起 始 位 置 开始 
while (mImg.find(imgMatchPointer)) 
{ 
imgMatchPointer = mImg.end(); // 下 一 次 查找 从 这 里 开始 
// 在 刚刚 找到 的 tag 中 查找 各 字段 
Boolean hasSrc = mSrc.region( mImg.start(l), mImg.end(1) ).find(); 
Boolean hasHeight = mHeight.region( mImg.start(1), mImg.end(1) ).find(); 
Boolean hasWidth = mWidth.region( mImg.start(1), mImg.end(1) ).find(); 
// 如 果 提 供 了 SRC 属性 ， 但 是 没 提供 WIDTH Fe/H HEIGHT .. 
if ( hasSrc && (! hasWidth || ! hasHeight)) 
{ 
java.awt.image.BufferedImage i = // 获 取 图 像 
javax.imageio.ImageIO.read(new java.net.URL(mSrc.group(1l))); 
String size; // 存 放 未 提供 的 WIDTH 和 /或 HEIGHT 属性 
if (hasWidth) 
// 得 到 了 width， 根 据 比例 计算 height 
size = "height='" + (int) (Integer.parseInt (mWidth.group(1)) * 
i.getHeight() / i.getWidth()) + "' "; 
else if (hasHeight) 
// 得到 了 height， 根 据 比 例 计算 width 
Size = "width='" + (int) (Integer.parseInt (mHeight .group(1))}* 
i.getWidth() / i.getHeight()) + "' "; 
else // 两 个 属性 都 没 提供 ， 按 实际 情况 处 理 
size = “width='" + i.getWidth() + "' " + 
"height='* + i.getHeight() + "' "; 
html.insert(mImg.start(1), size); // 原 地 修改 HTML 
imgMatchPointer += size.length(); // 更 新 匹配 指针 


} 


尽管 这 例子 很 有 教育 意义 ， 但 还 是 有 少数 地 方 没 考虑 到 。 因 为 这 个 例子 的 重点 在 于 本 地 查 
找 和 替换 ， 尽 可 能 地 简化 了 其 他 方面 ， 对 需要 处 理 的 HTML 进行 了 理想 的 假设 。 例 如 ， 正 
则 表达 式 不 容许 属性 的 等 号 两 边 出 现 空 白 ， 属 性 中 不 会 出 现 引 号 (参考 第 202 页 的 Perl E 
则 表达 式 ， 可 以 得 到 有 实际 意义 的 ，Java 版 本 的 tag 属性 匹配 的 办 法 )。 这 个 程序 不 能 处 理 
相对 URL， 也 不 能 处 理 格式 错误 的 URL， 也 不 能 处 理 获取 图 像 的 代码 抛 出 的 任何 异常 。 


不 过 ， 这 个 例子 仍然 说 明了 几 个 重要 的 概念 。 


www.TopSage.com 


拓展 示例 399 





对 于 每 个 Matcher， 使 用 多 个 Pattern #34 HTML 


Validating HTML with Multiple Patterns Per Matcher 


我 们 也 可 以 用 Java 来 写 校 验 简单 HTML 的 程序 (了 132)。 这 段 代码 通 过 usePattern HH 
实时 更 换 Matcher 的 pattem, 这样 能 够 处 理 多 个 以 "Gj 开头 的 pattern, 进行 对 应 的 操作 。 请 
参考 第 132 页 的 内 容 了 解 此 方法 的 更 多 细节 。 


Pattern pAtEnd 
Pattern pWord 
Pattern pNonHtml 
Pattern pImgTag 
Pattern pLink 
Pattern pLinkx 
Pattern pEntity 


Pattern.compile("\\G\\z"); 
Pattern.compile("\\G\\w+"); 
Pattern.compile("\\G[*\\w<>&]+"); 
Pattern.compile("\\G(?i)<img\\s+([*>]+)>"); 
Pattern.compile("\\G(?i)<A\\s+([*>]+)>"); 
Pattern.compile("\\G(?i)</A>"); 
Pattern.compile("\\G& (#\\d+; \\w+);"); 


nom on Ww nm ow ow 


Boolean needClose = false; 
Matcher m = pAtEnd.matcher(html); // #4 Pattern 对 象 都 能 生成 Matcher MR 
while (! m.usePattern(pAtEnd).find()) 
{ 

if (m.usePattern(pWord).find()) { 

. m.group () 包 含 一 个 单词 或 数值 ， 可 以 进行 对 应 的 检查 
} else if (m.usePattern(pImgTag).find()) { 
... @Himage tag， 检 查 是 否 合适 ... 

} else if (! needClose && m.usePattern(pLink).find()) { 
... RAR, Bit... 
needClose = true; 

} else if (needClose && m.usePattern(pLinkx).find()) { 
System.out.println("/LINK [" + m.group() + "]"); 
needClose = false; 

} else if (m.usePattern(pEntity).find()) { 

// 容许 出 现 &gt ;和 &#1237; 之 类 的 entity 

} else if (m.usePattern(pNonHtml).find()) { 
// 容许 出 现 其 他 非 单 词 的 非 HTML 代码 

} else { 

// 完全 无 法 匹配 ， 肯 定 出 了 错 ， 在 此 处 选取 一 段 文 字 用 于 错误 输出 
m.usePattern(Pattern.compile("\\G(?s).{1,12}")).find(); 
System.out.printin("Bad char before '" + m.group() + "'"); 
System.exit(1); 

} 

} 

if (needClose) { 
System.out.println("Missing Final </A>"); 
System.exit(1); 

} 


因为 java.util.regex fj bug, 4E HTML 的 匹配 尝试 即使 不 成 功 ， 仍 然 会 “占用 ”目标 字 
符 串 中 的 一 个 字符 ， 所 以 我 把 这 段 程序 放 在 最 后 。 这 个 bug 仍然 存在 ， 只 是 表现 为 错误 输 
出 中 缺少 第 一 个 字符 。 我 已 经 把 这 个 bug 提交 给 Sun, 


此 bug 没有 修正 之 前 ， 该 如 何 使 用 单个 参数 的 find 方法 来 解决 此 问题 呢 ?” 人 人 请 翻 到 下 页 
查看 答案 。 
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在 单个 参数 的 find0 中 使 用 多 个 Pattern 


+ 第 399 页 问题 的 答案 


在 第 399 页 的 程序 中 ，java.util.regex 错误 地 设置 了 matcher 的 “当前 位 置 "， 所 以 
下 一 次 查找 会 从 错误 的 位 置 开始 。 我 们 可 以 绕 过 这 个 bug， 自 己 记录 “当前 位 置 "， 使 
用 单个 参数 的 find 从 此 位 置 开始 查找 。 


程序 中 修改 的 部 分 以 高 亮 显 


Pattern pWord 
Pattern pNonHtml 
Pattern pImgTa 
Pattern pLink 


aN 


Pattern.compile("\\G\\w+"); 
Pattern.compile("\\G[*\\we>&]+"); 
Pattern.compile("\\G(?i)<img\\s+([*>]+)>"); 
Pattern.compile("\\G(?i)<A\\s+([*>]+)>"); 
Pattern pLinkx Pattern.compile(*\\G(?i)</A>"); 

Pattern pEntity Pattern.compile("\\G& (#\\d+1\\w+);"); 
Boolean needClose = false; 

Matcher m = pWord.matcher(html); // #4. Pattern 对 象 都 能 生成 Matcher 对 象 
Integer currentLoc = 0; 

while (currentLoc < html.length()) 

{ 


if (m.usePattern(pWord) .find(currentLoc)) { 
.. .了 m.group() 包 含 一 个 单词 或 数值 ， 可 以 进行 对 应 的 检查 
} else if (m.usePattern(pImgTag) .find(currentLoc)) { 
. È image Lag， 检 查 是 否 合适 .. ， 
else if (! needClose && m.usePattern(pLink).find(currentLoc)) { 
， 有 起 链接 ， 验 证 ... 
needClose = true; 
else if (needClose && m.usePattern(pLinkx) .find(currentLoc)) { 
System.out.println("/LINK [" + m.group() + "]"); 
needClose = false; 
else if (m.usePattern(pEntity).find(currentLoc)) { 
// 容许 出 现 &gt; 和 &#123; 之 类 的 entity 
else if (m.usePattern(pNonHtml).find(currentLoc)) { 
// 容许 出 现 其 他 非 单词 的 非 HTML 代码 
else { 
// 完全 无 法 匹配 ， 肯 定 出 了 错 ， 在 此 处 选取 一 段 文字 用 于 错误 输出 
m.usePattern(Pattern.compile("\\G(?s).{1,12}")).find(currentLoc) ; 
System.out.println("Bad char at '" + m.group() + "'"); 
System.exit (1); 
} 
currentLoc = m.end(); //“ 当 前 位 置 ”指向 上 次 匹配 的 结尾 
} 
if (needClose) { 
System.out.printin("Missing Final </A>"); 
System.exit(1); 
} 


与 之 前 的 程序 不 同 , 这 里 调用 find 时 指定 了 检索 的 开始 偏 移 值 , 所 以 不 必 指 定 region, 
不 过 ， 你 可 以 自己 维护 这 个 region， 在 每 次 find 之 前 恰当 地 调用 region, 


m.usePattern(pWord) .region(start, end) .find(currentLoc) 
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解析 CSV 文档 


Parsing Comma-Separated Values (CSV) Text 


这 里 是 用 java.util.regex 写 的 解析 CSV 的 例子 (参见 第 6 章 了 271)。 这 里 的 程序 使 用 
占有 优先 量词 (了 142) 取代 固化 分 组 ， 因 为 这 样 看 起 来 更 清楚 。 


String regex = // 双 引 号 字段 保存 到 group(1)， 非 引号 字段 保存 到 group1{2) 


\\G(2:%1,) \n"+ 

= Les \n"+ 
# 要 么 是 双 引 号 字段 ... \n"+ 

j \" # 开头 双 引 号 \n"+ 
CEA eo (?: KOR LP ee ye ) \n"+ 

\" # 结束 双 引 号 \n*+ 

©. f... RŽ... \n"+ 
y # 非 引 用 ， 非 运 号 文本 ,. . \n"+ 
. ((*\*,] *+) \n"+ 


" 


) \n"; 
// 根据 上 面 的 表达 式 创建 matcher， 解 析 其 中 的 一 行 CSV 文档 
Matcher mMain = Pattern.compile(regex, Pattern.COMMENTS) .matcher {line); 
// steam!" eh matcher, BARLAPH ARH 


Matcher mQuote = Pattern.compile("\"\"").matcher(""); 


while (mMain.find()) 
{ 
String field; 
if (mMain.start(2) >= 0) 


field = mMain.group(2); // 非 引 号 字段 ， 直 接 使 用 
else 


// 引用 字段 ， 用 单 引 号 替 接 两 个 相连 的 引号 
field = mQuote.reset (mMain.group(1)).replaceAll("\""); 


// 现在 处 理 字 段 的 内 容 ... 
System.out.printlin("Field [" + field + "]"); 
} 


这 个 程序 比 第 217 页 的 原始 程序 效率 要 高 很 多 , 原因 在 于 ; 正则 表达 式 效 率 更 高 ， 按 照 第 6 
章 第 271 页 介绍 的 办 法 ， 重 复 使 用 单个 Matcher (通过 单个 参数 版 本 的 reset H), mit 
有 不 断 创建 -回收 Mather, 


Java 版 本 差异 


Java Version Differences 


本 章 开头 已 经 提 到 ， 本 书 主要 针对 Java 1.5.0, 不 过 ， 目前 Java 1.4.2 仍然 在 广泛 应 用 ， 而 
Java 16 已 经 整装待发 (已 经 发 布 了 beta 版 ， 但 不 会 很 快 发 布 正式 版 )。 所 以 ， 我 得 简要 地 
提 一 下 1.4.2 和 1.5.0 (Update 7) 之 间 的 差异 ， 以 及 1.5.0 和 目前 的 1.6 “build 59g” 的 差异 。 


lf 


www.TopSage.com 


402 #8. Java 





1.4.2 和 1.5.0 之 间 的 差异 


Differences Between 1.4.2 and 1.5.0 


相对 Java 1.4.2, Java 15.0 添加 了 许多 新 的 方法 。 大 多 数 新 的 方法 主要 是 为 了 支持 Matcher 
的 检索 范围 。 此 外 ，Unicode 支持 也 升级 并 提高 了 效率 。 所 有 的 变化 都 在 下 面 两 节 详 细 介绍 
( 注 9)。 


1.5.0 中 的 新 方法 
与 检索 范围 相关 的 Matcher 方法 都 没有 出 现在 Java 1.4.2 中 : 


region 

regionStart 
regionEnd 
useAnchoringBounds 
hasAnchoringBounds 


useTransparent Bounds 
hasTransparent Bounds 


Java 1.4.2 也 不 包含 下 面 的 方法 : 


toMatchResult 
hitEnd 
requireEnd 
usePattern 
toString 


Java 1.4.2 不 包含 下 面 这 个 static HH: 


# Pattern.quote 


1.4.2 #1 1.5.0 关于 Unicode 支持 的 差异 
1.4.2 和 1.5.0 在 Unicode 相关 的 问题 上 有 这 些 变化 : 


。 Java 1.4.2 的 Unicode 使 用 的 是 Unicode Version 3.0.0, 1.5.0 使 用 的 是 Unicode Version 
4.0.0。 这 个 改变 影响 到 很 多 方面 , 例如 字符 的 定义 (例如 , 在 Version 3.0.0 中 ，\uFFFF 
之 后 是 没有 代码 点 的 )， 以 及 属性 和 Unicode 区 块 的 定义 。 


。 增强 了 通过 ' 玫 p{…} 和 和 八 P{(…)1 引 用 区 块 的 方式 (参加 Java 关于 Character. 
UnicodeBlock 的 文档 ， 得 到 区 块 列表 及 其 正式 名 称 )。 





注 9: 递归 结构 '(?1) 1 未 在 文档 中 说 明 , 在 Java 1.4.2 中 是 非 正式 提供 的 , 在 1.5.5 中 已 经 不 再 包 
含 。PCRE 也 是 如 此 ， 但 是 Java 没有 在 文档 中 说 明 ， 我 们 在 这 里 用 脚注 来 说 明 。 
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Java 1.4.2 中 的 规则 是 “去 掉 官 方 代码 块 名 字 中 的 空格 ， 和 开头 的 In”。 这 样 ， 区 块 引 


用 就 类 似 \p{InHangulJamo} 和 \p{InArabicPresentationForms-A}。 


1.5.0 添加 了 两 种 新 的 区 块 命名 。 可 以 在 官方 块 名 称 之 前 直接 添加 “In' ， 所 以 名 字 可 
以 为 \p{InHangul*Jamo} 和 \p{InArabic"*Presentation*Forms-A}。 也 可 以 给 Java 的 


区 块 标识 符 添 加 前 级 “In”( 是 官方 名 称 ， 将 空格 和 连 字 符 替换 为 下 夯 线 ) 


\p{InHangul_Jamo} 和 \p{InArabic_Presentation_Forms_A}, 


* Java 1.4.2 存在 一 个 古怪 的 bug, Arabic Presentation Forms-B 和 Latin Extended-B 
结尾 的 “B” 必须 写作 “Bound” > 也 就 是 说 \p {InArabicPresentationForms-Bound)} 
和 \p{InLatinExtended-Bound}。 


e Java 1.5.0 中 Character 类 的 isSomeing 方法 支持 正则 表达 式 (9369), 


1.5.0 和 1.6 之 间 的 差异 


Differences Between 1.5.0 and 1.6 


写作 本 书 时 已 经 发 布 的 1.6 和 1.5.0 在 正则 表达 式 的 问题 上 只 有 两 个 细微 的 差别 ; 
。*。 = Java 1.6 提供 了 之 前 没有 的 对 Pi 和 Pf 的 Unicode 分 类 的 支持 。 
© ‘\o---\E) HRY bug 已 经 修正 了 ， 所 以 在 字符 组 中 可 以 正常 工作 。 
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第 章 


.NET 


.NET 


Microsoft 的 .NET Framework 中 可 以 使 用 Visual Basic、 C# 和 C++( 以 及 其 他 许多 语言 ), NET 
提供 了 公用 的 正则 表达 式 库 , 统一 了 不 同 语言 之 间 的 正则 表达 式 语意 。 它 的 引擎 特性 完备 ， 
功能 强大 ， 容 许 我 们 在 速度 和 便利 之 间 求 得 最 大 的 均衡 ( 注 1), 


每 种 语言 在 处 理 对 象 和 方法 时 都 有 不 同 的 语意 ， 但 是 某 些 基本 的 对 象 和 方法 在 所 有 语言 中 
都 是 相通 的 ， BD 的 都 可 以 直接 转换 到 .NET 语言 套件 中 
的 其 他 语言 中 。 serena 用 Vis 














: won BEI, 第 1 到 6 章 的 基础 知识 对 理解 本 章 非 
靖 读 者 可 能 会 从 本 章 开 始 阅 读 这 本 书 ， 我 希望 他 们 
AMORA: 1, 2. 3 章 介绍 了 与 正则 表达 式 
5. ORAM TS HME MAAR LAAN, È 
JUURI REA E NFA 引擎 进行 匹配 的 


xax. amn. sA 
UIR IRN Ce 
相关 的 基本 概念 、 特 性 稳 丢 玉 . 
们 可 以 直接 应 用 到 .NET | 
基本 原理 、 oe ee 


接 下 来 要 强调 的 是 ， 除 了 上 ras 
第 123 页 ， 我 并 不 希望 这 本 书 


07 页 ， 和 第 3 章 从 第 114 页 到 
精通 正则 表达 式 的 详细 教科 书 。 





: 本 书 针 对 .NET Framework 





(随同 Visual Studio 2005 一 起 发 售 ) . 
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本 章 首 先 介绍 .NET 的 正则 流派 , 包括 元 字符 的 支持 事宜 , 以 及 .NET 程序 员 必 须 面 对 的 特殊 
问题 。 然 后 是 总 括 .NET 中 正则 表达 式 相 关 的 对 象 模型 ， 详 细 讲解 居于 核心 地 位 的 ， 与 正则 
表达 式 相 关 的 类 。 最 后 用 例子 来 说 明 ， 如 何 将 预先 构建 好 的 正则 表达 式 封装 到 共享 的 装配 
件 (assembly) 中 ， 组 成 个 人 的 正则 表达 式 库 。 


NET 的 正则 流派 


,NET s Regex Flavor 
.NET 使 用 的 是 传统 型 NFA 引擎 ， 所 以 第 4、5、6 章 讲 解 的 NFA 的 知识 都 适用 于 .NET。 下 
一 页 的 表 9-1 简要 说 明了 .NET 的 正则 流派 ， 其 中 大 部 分 已 经 在 第 3 章 介绍 过 。 


在 接收 正则 表达 式 的 函数 和 结构 申 设置 标志 位 (人 Bg》 ， 或 是 在 正则 表达 式 之 内 使 用 
‘( 2modes-modes) | #il' (?mods-mods@-) ,结构 5 BY) DLA AAI aK 流派 的 许多 方 
面 也 会 因此 发 生变 化 (9110), 408 WHIZ 9-2 Hiei 了 这 些 模式 :; 


其 中 包括 了 "\wj 之 类 的 “ 纯 ” 转 义 。 它 们 可 以 直接 用 到 VB.NET 的 字符 串 文字 ("\w") 和 
C# 的 verbatim 字符 串 (@"\w") 中 。C++ 的 语言 没有 提供 针对 正则 表达 式 的 字符 串 文字 ， 所 
以 正则 表达 式 中 的 反 斜 线 在 字符 串 文 本 中 需要 双 写 -("\\w" )。 请 参考 “作为 正则 表达 式 的 
字符 申 ”( 宁 101)。 


下 面 是 对 表 9-1 的 补充 说 明 : 
O \b 只 有 在 字符 组 内 部 才 作 为 退 格 符 。 在 字符 组 之 外 ，\b 匹配 单词 分 界 符 (7133), 
\x## 容 许 出 现 两 位 十 六 进 制 数字 ， 例 如 "xFCber Ei ‘über’, 


\u#### 容 许 且 只 容许 四 位 十 六 进 制 数 字 ， 例 如 '\u00FCber; 匹配 ‘aber’, '\u20Ac, pE 
Ac ‘e’. 


© .NET Framework Version 2.0 中 的 字符 组 支持 集合 减法 , 例如 '[a-z- [aeiou]]| 表 示 小 写 
的 非 元 音 ASCI 字母 (7125), 在 字符 组 内 部 , 连 字符 之 后 又 跟着 字符 组 表示 字符 组 的 
减法 运算 ， 减 去 后 面 字符 组 内 部 的 字符 。 


© \w、\a 和 \e (以 及 对 应 的 \W、\D 和 \8) 通常 能 处 理 所 有 合适 的 Unicode 字符 ， 但 是 如 
果 启 用 了 RegexOptions.ECMAScript (412)， 就 只 能 处 理 ASCII 字符 。 


在 此 默认 模式 下 ，\w 匹配 Unicode 属性 \p{L1}、\p{Lu}、\p{Lt}、\p{Lo}、\p{Na】 
和 \p{Pc}。 请 注意 ， 其 中 并 没有 \p{Lm} (请 参考 第 123 页 的 属性 列表 )。 
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表 9-1: NET 正则 表达 式 流 派 概览 


S EENE r Nc i ? TEE ; 
F115 (c) \a [\b] \e \f \n \r \t \w\octal \x## \u#### \cchar 


+118 PAMP: pel [^…] (TASKS MAT 125) 


7119 几乎 任何 字符 : 点 号 (根据 模式 的 不 同 ， 有 各 种 含义 ) 

7120 (c) 字符 组 缩 咯 表示 法 8: \w \d \s \W \D \s 

7121 (c) Unicode 属性 和 区 块 ?:， \p{Prop) \P{Prop} 

4 Ses 
#129 行 /字符 事 起 始 位 置 : ^ \A 

#129 行 /字符 事 结 束 位置 : $ \z \z 

#130 当前 匹配 的 起 始 位 置 8s，\G 

F133 单词 分 界 符 : \b \B 

F133 环视 结构 8: (?=…) (21e) (Rewer) (Peter) 

F135 模式 修饰 符 : (?mods-mods) 容许 出 现 的 模式 : x 8 m i n (7408) 
#135 模式 修饰 范围 : (?mods-mods:…) 

F136 注释 : (?#…) 

F137 WRN: (e) \1 \2… 

7436 对 称 分 组 : ( P<name-name>---) 

7409 命名 捕获 及 回溯 : (<name>) \k<name> 

F137 仅 分 组 的 括号 : (?:…) 

7139 固化 分 组 : (?>…) 

7139 多 选 结构 : | 

7141 匹配 优先 量词 : * + ? {n} {n,} {x,y} 

F141 忽略 优先 量词 : *? +? 2? {n}? {n,}? {x,y}? 

#109 条 件 判 断 : (Pif then|elsey)—— “if 部 分 可 以 是 环视 、 (num) Ñ (name) 
(c) 一 一 可 用 于 字符 组 内 部 @D……@ 见 说 明 


在 默认 模式 下 , \s 匹配 ["\f\n\r\t\v\x85\p{Z}]1,U+0085 是 Unicode 中 的 NEXT LINE 
控制 字符 ，\p{z} 匹 配 Unicode 的 “分 隔 符 ”字符 (7122). 


@® \p{(…} 和 \P{…} 支 持 标准 的 Unicode 属性 和 区 块 (针对 Unicode Version 4.0.1)。 不 支持 
Unicode 字母 表 。 


区 块 名 要 求 出 现 “Is” 前 缀 (参考 第 125 页 的 表格 ) ， 只 能 够 使 用 含有 空格 或 者 下 画 线 
的 格式 。 例如 ，\p{Is_Greek_Extended} 和 \p{Is Greek Extended} 是 不 容许 的 ， 正 
确 的 只 有 \p{IsGreekExtended}。 
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表 9-2; NET 的 匹配 模式 和 正则 表达 式 模式 


第 9 章 : NET 


NET 只 支持 \p{Lu) 之 类 的 短 名 称 ， 而 不 支持 \ptLowercase_Letter} 之 类 的 长 名 称 。 
单字 母 属性 也 要 求 使 用 花 括号 (也 就 是 说 ， 不 能 把 \ptr} 简 记 为 \br)。 请 参考 第 122 
和 第 123 页 的 表格 。 


NET 也 不 支持 特殊 的 复合 属性 \p{L&) ， 以 及 特殊 属性 \p{aAl1) 、\p{Assigned} 和 
\p{Unassigned}。 相 反 ， 你 可 以 使 用 (?s:. Ee '\P(Cn}), ‘\p(Cn)}s 分别 来 代替 。 


\G 表示 上 一 次 匹配 的 结束 位 置 ， 虽 然 文档 介绍 说 它 表示 本 次 匹配 的 开头 位 置 (7130), 


顺序 环视 和 逆序 环视 中 都 可 以 使 用 任意 形式 的 正则 表达 式 。 就 我 所 知 ，.NET 正则 引擎 
是 唯一 容许 在 逆序 环视 中 出 现 能 够 匹配 任意 长 度 文本 表达 式 的 引擎 (7133), 


RegexOptions.ExplicitCapture 选项 (也 可 通过 模式 修饰 符 (?n) 设 定 ) 会 禁止 普通 
的 '(…) ,括号 的 捕获 功能 。 不 过 明确 命名 的 捕获 型 括号 一 一 例如 和 (?<num>\a+) 一 一 仍 
然 有 效 (138)。 如 果 使 用 了 命名 分 组 ， 此 选项 容许 你 使 用 更 加 美观 的 '(…),， 而 不 是 
(?:…))， 来 进行 纯粹 的 分 组 。 









(<7 S: = as: 
.Singleline es 点 号 能 匹配 任何 字符 (7111) 

.Multiline m | 扩展 “和 '$) 的 匹配 (7111) 
.IgnorePatternWhitespace re | 设置 宽松 排列 和 注释 模式 (772) 

. IgnoreCase 进行 不 区 分 大 小 写 的 匹配 

.ExplicitCapture 关闭 (++) 的 捕获 功能 , 只 有 '(?<name>…) | 能 


-RightToLeft 


够 捕获 (7412) 


传动 装置 的 驱动 过 程 不 变 ， 但 是 方向 相反 (MF 
符 囊 的 末尾 开始 ， 向 开头 移动 )。 不 幸 的 是 这 个 
选项 会 有 问题 (7411) 


.ECMAScript | 限制 \w Vs 和 "\G 只 对 ASCI[ 字符 有 效 (412) 


.Compiled 多 花 些 时 间 优 化 正则 表达 式 , 这样 应 用 时 匹配 更 


迅速 (7410) 
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对 于 流派 的 补充 


Additional Comments on the Flaver 


下 面 介绍 一 些 其 他 的 相关 细节 。 


命名 捕获 


NET 支持 命名 捕获 (7138), 它 通过 和 (?<name>…) 1 或 是 '(?'name'…) | 实现 。 这 两 种 办 法 
是 等 价 的 ， 可 以 随意 选用 其 中 一 种 ， 不 过 我 更 喜欢 <…>， 因 为 我 相信 使 用 它 的 人 多 一 些 。 


要 反 向 引用 命名 捕获 匹配 的 文本 ， 可 以 使 用 八 k<nmarmme>, 或 是 \k'nmame' 


在 匹配 之 后 (也 就 是 Match 对 象 生成 之 后 :下文 从 第 416 页 开始 概要 介绍 .NET 的 对 象 模型 )， 
命名 捕获 匹配 的 文本 可 以 通过 Match 对 象 的 Groups (name) 属性 来 访问 (CHE A 


Groups [name}), 
在 replacement 字符 串 中 (了 424)， 命 名 捕获 的 结果 通过 $ name) Kihi. 


某 些 情况 下 ， 可 能 需要 按 数字 顺序 访问 所 有 的 分 组 ， 所 以 命名 捕获 的 分 组 也 会 被 标 上 序号 。 
它们 的 编号 从 所 有 未 命名 的 分 组 之 后 开始 ; 


1 13 32 2 
'(\w) (?<Num>\d+) (\8+); 


本 例 中 , 我 们 可 以 用 Groups ("Num") X Groups (3) 来 访问 人 da+ 匹配 的 文本 。 这 两 个 名 字 对 
应 同一 个 分 组 。 


不 幸 的 结果 


一 般 情况 下 不 应 该 把 正常 的 捕获 型 括号 和 命名 捕获 混合 起 来 ， 不 过 如 果 你 这 样 做 了 ， 就 必 
须 彻 底 理解 捕获 分 组 的 编号 顺序 。 如 果 捕 获 型 括号 用 于 split (7425), 或 者 在 replacement 
字符 捉 中 使 用 了 “$+”(424)， 编 号 就 很 重要 。 


条 件 测试 


如 果 '(?ifthenlelse) 中 的 六 部 分 (7140) 可 以 使 用 任意 类 型 的 环视 结构 ,也 可 以 在 括号 中 
使 用 捕获 分 组 的 编号 ， 或 者 是 命名 分 组 的 名 字 。 这 里 出 现 的 纯 文 本 (或 者 纯正 则 表达 式 ) 

会 被 自动 当 作 肯定 型 顺序 环视 来 处 理 (也 就 是 说 ， 可 以 将 其 看 作 (?=…)) 包围 的 结构 )。 这 
可 能 带 来 麻烦 : 例如 ， 1...(? (Num) then ielse) -3 PR (Num) 会 变 为 "(?=Num), (也 就 是 顺序 
环视 的 “Num'" ) ， 如 果 在 正则 表达 式 的 其 他 地 方 没有 出 现 (?<Num>…) ,时 会 这 样 。 如 果 存 在 
这 样 的 命名 捕获 ， 引 判断 的 就 是 它 是 否 捕获 成 功 。 
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我 推荐 不 要 依赖 这 种 “自动 化 顺序 环视 (auto-lookaheadfication)”， 而 明确 使 用 '(?=…) 48 
意图 传达 给 看 程序 的 人 ， 这 样 如 果 正 则 引擎 在 未 来 修改 了 语法， 也 不 会 带 来 意外 。 


“编译 好 的 ”正则 表达 式 


在 前 面 几 章 ， 我 使 用 “编译 (compile)” 这 个 词 来 描述 所 有 正则 表达 式 系 统 中 ， 在 应 用 正则 
表达 式 之 前 必须 做 的 准备 工作 ， 它 们 用 来 检查 正则 表达 式 是 否 格式 规范 ， 并 将 其 转换 为 能 
够 实际 应 用 的 内 部 形式 。 在 .NET 的 正则 表达 式 中 ， 它 的 术语 是 “解析 (parsing)”, .NET 
使 用 两 种 意义 的 “编译 ”来 指 涉 解析 阶段 的 优化 。 


下 面 是 增进 优化 效果 的 细节 : 


。 解析 (Parsing) 程序 在 执行 过 程 中 , 第 一 次 遇 到 正则 表达 式 时 必须 检查 它 是 否 格 式 规 
范 ， 并 将 其 转换 为 适 于 正则 引擎 实际 应 用 的 内 部 形式 。 此 过 程 在 本 书 的 其 他 部 分 称 为 
“编译 (compile)” , 


° “ 即 用 即 编译 (On-the-Fly Compilation) 在 构建 正则 表达 式 时 , 可 以 指定 RegexOptions. 
compiled 选 项 。 它 告诉 正则 引擎 , 要 做 的 不 仅 是 此 表达 式 转 换 为 某 种 默认 的 内 部 形式 ， 
而 是 编译 为 底层 的 MSIL (Microsoft Intermediate Language) 代码 ， 在 正则 表达 式 实 际 
应 用 时 ， 可 以 由 JIT (“Just-In-Time” 编 译 器 ) 优化 为 更 快 的 本 地 机 器 代码 。 


这 样 做 需要 花费 更 多 的 时 间 和 空间 ， 但 这 样 得 到 的 正则 表达 式 速度 更 快 。 本 节 之 后 会 
讨论 这 样 的 权衡 。 


。 _ 预 编译 的 正则 表达 式 一 个 (或 多 个 ) Regex 对 象 能 够 封装 到 DLL (Dynamically Loaded 
Library， 例 如 共享 的 库 文件 ) 中 ， 保 存在 磁盘 上 。 这 样 其 他 的 程序 也 可 以 直接 调用 它 。 
称 为 “编译 装配 件 (assembly)”。 请 参考 “正则 表达 式 装 配件 ”( 灾 434) 获得 更 多 信息 。 


如 果 使 用 Regexoptions .compileda 来 进行 “ 即 用 即 编译 ”的 编译 ,在 启动 速度 ， 持 续 内 存 
占用 和 匹配 速度 之 间 ， 存 在 此 消 彼 长 的 关系 : 












较 慢 (最 多 提升 60 倍 ) 
多 (每 个 表达 式 占用 5-15KB) 
最 多 能 提升 10 倍 


在 程序 第 一 次 遇 到 正则 表达 式 时 进行 初始 的 正则 表达 式 解 析 (默认 情况 ， 即 不 用 Regexop- 
tions.Compiled) 相对 来 说 是 很 快 的 。 即 使 在 我 这 台 有 年 头 的 SSOMHz NT 的 机 器 上 ， 每 
秒 钟 也 能 进行 大 约 1 500 次 复杂 编译 。 如 果 使 用 RegexOptions .Compiled， 则 速度 下 降 到 
每 秒 25 次 ， 每 个 正则 表达 式 需 要 多 占用 大 约 10KB 内 存 。 
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更 重要 的 是 ， 在 程序 的 执行 过 程 中 ， 这 块 内 存 会 一 直 占 用 一 一 它 无 法 释放 。 


在 对 时 间 要 求 不 严格 的 场合 使 用 RegexOptions.Compiled 无 疑 是 很 有 意义 的 , 在 这 里 , 速 
度 是 很 重要 的 ， 尤 其 是 需要 处 理 大 量 的 文本 时 更 是 如 此 。 另 一 方面 ， 如 果 正 则 表达 式 很 简 
单 ， 需 要 处 理 的 文本 也 不 是 很 多 ， 这 样 做 就 没有 意义 。 如 果 情 况 不 是 这 样 黑 白 分 明 ， 该 如 
何 选 择 就 不 那么 容易 了 一 一 必须 具体 情况 具体 分 析 ， 以 进行 取舍 。 


某 些 情况 下 , 把 编译 的 正则 表达 式 作 为 “编译 好 的 ”正则 对 象 封装 到 DLL 中 是 很 有 价值 的 。 
最 终 的 程序 所 占 的 内 存 更 少 〈 因 为 不 必 装 载 编译 正则 表达 式 所 需 的 包 ) ， 装 载 速度 更 快 ( 因 
为 在 DLL 生成 时 它们 已 经 编译 好 了 ， 只 需要 直接 使 用 即 可 )。 另 一 个 不 错 的 副产品 就 是 ， 

表达 式 还 可 以 供 其 他 需要 的 程序 使 用 ， 所 以 这 是 一 种 组 建 个 人 正则 表达 式 库 的 好 办 法 。 请 
参考 第 435 页 的 “使 用 装配 件 构建 自己 的 正则 表达 式 库 ”。 





从 右 向 左 的 匹配 


长 期 以 来 ， 正 则 表达 式 的 开发 人 员 一 直 疯 狗 着 “ 反 向 (backwards)” PCAC (MMEA, mi 
不 是 从 左 向 右 )。 对 开发 人 员 来 说 ， 最 大 的 问题 可 能 是 ,“ 从 右 向 左 ” 的 匹配 到 底 是 什么 意 
思 ? 是 整个 正则 表达 式 都 需要 反 过 来 吗 ? 还 是 说 ， 这 个 正则 表达 式 仍然 在 目标 字符 串 中 进 
行 尝试 ， 只 是 传动 装置 从 结尾 开始 ， 驱 动 过 程 从 右 向 左 进行 ? 


抛 开 这 些 纯粹 的 概念 ， 看 个 具体 的 例子 : 用 \a+, 匹 配 字 符 串 “123'and"456" 。 我 们 知道 正 
常情 况 下 结果 是 “123" ， 根 据 直 觉 ， 从 右 向 左 匹 配 的 结果 应 该 是 “456' 。 不 过 ， 如 果 正 则 
引擎 使 用 的 规则 是 ， 从 字符 捉 末 尾 开 始 ， 驱 动 过 程 从 左 向 右 进行 ， 结 果 可 能 就 会 出 平 意料 。 
在 某 些 语意 下 ， 正 则 引擎 能 够 正常 工作 (从 开始 的 位 置 向 右 “看 ”")， 所 以 第 一 次 尝试 \dq+， 
是 在 “…456、， 这 里 无 法 匹配 。 第 二 次 尝试 在 “…45.,6`" ， 这 里 能 够 匹配 ， 所 以 驱动 过 程 开 
始 “考察 ”位 置 “6" ， 这 当然 可 以 匹配 \a+;， 所 以 最 后 的 结果 是 “6 "。 


NET 的 正则 表达 式 提供 了 RegexOptions. RightToLeft 的 选项 。 但 它 究 竟 是 什么 意义 呢 ? 
答案 是 :“ 这 问题 值得 思索 。” 它 的 语意 设 有 文档 ， 我 测试 了 也 无 法 找到 规律 。 在 许多 情况 
下 一 一 例如 “123'and"456 ， 它 给 出 符合 直觉 的 结果 (也 就 是 “456  ) 。 


www.TopSage.com 


412 第 9 章 : .NET 


不 过 ， 有 时 候 也 会 报告 没有 匹配 结果 ， 或 是 匹配 跟 其 他 结果 相 比 毫 无 意义 的 文本 。 


如 果 需 要 进行 从 右 向 左 的 匹配 ， 你 可 能 会 发 现 ，RegexOoptions .RightToLeft 似乎 能 得 到 
你 期 望 的 结果 ， 但 是 最 后 ， 你 会 发 现 这 样 做 得 冒 风险 。 


反 斜 线 -数字 的 二 义 性 


数字 跟 在 反 斜 线 之 后 ， 可 能 表示 十 进 制 数 的 转 义 ， 也 可 能 是 反 向 引用 。 到 底 应 该 如 何 处 理 ， 
取决 于 是 否 指定 了 RegexOptions .ECMAScript 选项 。 如 果 你 不 关心 其 中 的 细微 差别 , 不 妨 
一 直 用 、\k<nmurm>, 表 示 反 向 引用 , 或 者 在 表示 十 进 制 数 时 以 0 开头 (例如 入 081)。 这 两 种 办 


法 不 受 RegexOptions .ECMAScript 的 影响 。 


如 果 没 有 使 用 Regexoptions .ECMASCript, 从 "1 到 9, 的 单个 转 义 数字 通常 代表 反 向 引 
用 ,而 以 0 开头 的 转 义 数字 通常 代表 十 进 制 转 义 (例如 ,"\012, 匹配 ASCII 的 进 纸 符 
linefeed)， 除 此 之 外 的 所 有 情况 下 ， 如 果 “ 有 意义 ”( 也 就 是 说 某 个 正则 表达 式 中 有 足够 
多 的 捕获 型 括号 ), 数字 都 会 被 作为 反 向 引用 来 处 理 。 否 则 ,如果 数 字 的 值 处 于 \000 和 \377 
之 间 , 就 作为 十 进 制 转 义 。 例如, 如 果 捕 获 型 括号 的 数目 多 于 12, 则 信 12, 会 作为 反 向 引用 ， 
否则 就 会 作为 十 进 制 数字 。 


下 一 节 详 细 讲解 Regexoptions .ECMAScript 的 语意 。 
ECMAScript 模式 


ECMAScript 的 基础 是 一 种 标准 版 本 的 JavaScript ( 注 2)， 还 包含 了 它 自己 的 解析 和 应 用 正 
则 表达 式 的 语意 。 如 果 使 用 RegexOptions .ECMAScript 选项 ，.NET 的 正则 表达 式 就 会 模 
所 这 些 语意 。 如 果 你 不 明白 ECMASCript 的 含义 , 或 者 不 需要 兼容 它 , 就 完全 可 以 忽略 该 节 。 


如 果 启 用 了 Regexoptions .ECMASCript ， 将 会 应 用 下 面 的 规则 : 
* RegexOptions.ECMAScript 只 能 与 下 面 的 选项 同时 使 用 ， 


RegexOpt ions. IgnoreCase 


RegexOptions.Multiline 
RegexOpt ions.Compiled 


e \w, \d, \s. W. \D, \s 只 能 匹配 ASCI 字符 。 


ił 2: ECMA 表示 “European Computer Manufactures Association (欧洲 计算 机 制造 商 协会 )”， 成 
LF 1960 年 ， 任 务 是 为 不 断 发 展 计算 机 的 各 个 方面 制定 标准 。 


if 
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。 “正则 表达 式 中 的 反 斜 线 -数字 的 序列 不 会 有 反 向 引用 和 十 进 制 转 义 的 二 义 性 ， 它 只 能 表 
示 反 向 引用 ， 即 使 这 样 需要 截断 结尾 的 数字 。 例 如 ，(…)\10, 中 的 10, 会 被 处 理 为 ， 
第 1 组 捕获 性 括号 匹配 的 文本 ， 然 后 是 文字 “0 。 


使 用 .NET 正则 表达 式 


Using .NET Regular Expressions 


NET 正则 表达 式 功 能 强大 ， 语 法 清晰 ， 通 过 完整 而 易于 使 用 的 类 接口 来 操作 。 虽 然 微软 的 
正则 表达 式 包 做 得 很 漂亮 ， 文 档 却 相反 一 一 它 非常 精 糕 。 文 档 不 够 全 面 ， 编 写 不 够 清晰 ， 
缺乏 组 织 ， 有 时 甚至 不 能 保证 正确 性 。 我 花 了 很 长 的 时 间 才 整理 清楚 ， 所 以 希望 这 一 章 的 
内 容 能 够 让 读者 更 清楚 地 理解 .NET 的 正则 表达 式 。 


正则 表达 式 快 速 入 门 


Regex Quickstart 


即使 不 需要 知道 正则 类 模型 (regex class model) 的 细节 ， 也 可 以 直接 上 手 使 用 .NET 的 正则 
表达 式 包 。 理 解 细节 能 够 让 我 们 获得 更 多 的 信息 ， 提 高 工作 效率 ， 但 是 下 面 这些 简 单 的 例 
子 没 有 明确 创建 任何 正则 类 ， 细 节 将 在 例子 之 后 提 到 |。 


使 用 正则 表达 式 库 的 程序 必须 在 文件 的 开头 写 上 下 面 这 条 语句 ， 下 面 的 例子 假设 此 句 已 经 
存在 : 


Imports System.Text.RegularExpressions 


下 面 的 例子 都 能 正常 处 理 string 变量 Teststr。 本 章 的 所 有 例子 中 , 选用 的 变量 名 都 以 余 
体 标 注 。 


快速 入 门 : 在 字符 串 中 寻找 匹配 
这 段 程序 检查 一 个 正则 表达 式 是 否 能 匹配 字符 申 : 


If Regex.IsMatch(TestStr, "*\s*$") 
Console.WriteLine("line is empty") 
Else 
Console.WriteLine("line is not empty”) 
End If 


这 个 例子 使 用 了 匹配 模式 : 


If Regex.IsMatch(TestStr, "“subject:", RegexOptions. IgnoreCase) 
Console.WriteLine("line is a subject line") 

Else 
Console.WriteLine("line is not a subject line") 

End If 


iil 
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快速 入 门 ， 匹配 ， 获 得 匹配 文本 
这 个 例子 显示 正则 表达 式 实际 匹配 的 文本 。 如 果 没 有 匹配 ，TheNum 就 是 空 字符 串 。 


Dim TheNum as String = Regex.Match(TestStr, "\d+") .Value 
If TheNum <> "" 

Console.WriteLine("Number is: " & TheNum) 
End If 


这 个 例子 使 用 了 一 个 匹配 模式 ; 


Dim ImgTag as String = Regex.Match(TestStr, "<img\b[*>]*>", 
RegexOptions.IgnoreCase) .Value 
If ImgTag <> "" 
Console.WriteLine("Image tag: " & ImgTag) 
End If 


快速 入 门 : 匹配 ， 获 得 捕获 文本 
这 段 程序 以 字符 串 的 形式 返回 第 1 个 捕获 分 组 的 匹配 文本 : 


Dim Subject as String = _ 
Regex.Match(TestStr, "*Subject: (.*)").Groups(1).Value 
If Subject <> ** 
Console.WriteLine("Subject is: " & Subject) 
End If 


请 注意 ， 在 C# 中 应 使 用 Groups [1] 取 代 Groups (1), 
下 面 的 程序 目的 相同 ， 只 是 使 用 了 match 选项 ， 


Dim Subject as String = _ 
Regex.Match(TestStr, ““subject: (.*)", — 


RegexOptions.IgnoreCase) .Groups(1).Value 
If Subject <> "" 


Console.WriteLine("Subject is: " & Subject) 
End If 


仍然 是 相同 的 程序 ， 只 是 使 用 命名 捕获 : 


Dim Subject as String = _ 
Regex.Match(TestStr, "“subject: (?<Subj>.*)", _ 
RegexOptions.IgnoreCase) .Groups ("Subj") .Value 
If Subject <> "" 
Console.WriteLine("Subject is: " & Subject) 
End If 


快速 入 门 : 查找 和 符 换 
这 个 例子 把 输入 的 字符 串 转 换 为 HTML“ 安 全 ”的 字符 ， 把 特殊 的 HTML 转换 为 HTML 


entity ; 


TestStr = Regex.Replace(TestStr, "&", "&amp;") 
TestStr = Regex.Replace(TestStr, "<", "&lt;") 
TestStr = Regex.Replace(TestStr, ">", "&gt;") 


Console.WriteLine("Now safe in HTML: " & TestStr) 
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replacement 字符 串 (第 3 个 参数 ) 的 处 理 是 很 特殊 的 ， 第 424 页 的 补充 内 容 做 了 讲解 。 例 
如 ， 在 replacement 字符 申 中 ，' $s” 会 被 正则 表达 式 真正 匹配 的 文本 所 替代 ， 下 面 的 例子 
给 大 写 的 单词 添加 <B>…</B>: 


TestStr = Regex.Replace(TestStr, "\b[A-Z]\w*", "<B>$&</B>") 
Console.WriteLine("Modified string: ”& TestStr) 


这 个 例子 把 <B>…</B> (使 用 不 区 分 大 小 写 的 匹配 ) 替换 为 <I>…</I>: 


TestStr = Regex.Replace(TestStr, "<b>(.*?)</b>", "<I>$1l</I>", _ 
RegexOptions.IgnoreCase) 
Console.WriteLine("Modified string: " & TestStr) 


包 概览 


Package Overview 


通过 丰富 而 便捷 的 类 结构 ， 可 以 使 用 .NET 正则 表达 式 几 乎 所 有 的 功能 。 下 面 这 个 完整 的 控 
制 台 程 序 ， 提 供 了 关于 整个 包 的 概览 ， 它 明确 使 用 各 种 对 象 来 进行 简单 的 匹配 。 


Option Explicit On ' 使 用 正则 表达 式 时 并 非 必须 这 样 写 
Option Strict On ' 但 这 样 做 是 个 好 习惯 

' 简化 正则 表达 式 相 关 的 类 的 访问 

Imports System. Text .RegularExpressions 


Module SimpleTest 
Sub Main(} 
Dim Samplefext as String = “this is the lst test string" 
Dim g as Regex = New Regex("\d+\w+") "编译 这 个 pattern 
Dim ¥ as Match = &.match(Samlefext) ' 应 用 到 字符 事 中 
If not A. Success 
Console.WriteLine("no match") 
Else 
Dim MatchedText as String = M.Value ' 音 询 结 果 ... 
Dim MatchedFram as Integer = #. index 
Dim Matchedien as Integer = M.Length 
Console.WriteLine("matched [" & MatchedText & "|" & _ 
" from char#" & MatchedFram.ToString() & _ 


"for " & MatchedZLen.ToString() & " chars.") 
End If 


End Sub 
End Module 


通过 命令 行 提示 符 来 执行 ， 把 \d+ \w+ 应 用 到 同样 的 文本 ， 结 果 是 ; 


matched [lst] from char#12 for 3 chars. 


导入 正则 表达 式 名 字 空 间 


你 注意 到 程序 头 部 的 Imports System.Text.RegularExpressions 了 吗 ? 任何 用 到 .NET 
正则 对 象 的 VB 程序 都 必须 写 上 这 一 条 语句 ， 才 能 通过 编译 。 
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C# 中 对 应 的 是 : 
using System.Text.RegularExpressions; //C# 中 应 这 么 写 
这 个 例子 说 明了 基本 的 正则 对 象 的 用 法 ， 下 面 两 行 主要 行为 : 


Dim R as Regex = New Regex("\d+\w+") ' 编 译 这 个 pattern 
Dim M as Match = R.match(SampleText) ' 应 用 到 字符 事 中 


也 可 以 合并 为 一 行 : 

Dim M as Match = Regex.Match(SampleText, “\d+\w+") ‘F488 pattern 
合并 的 写法 更 容易 使 用 ， 程 序 员 需 要 输入 的 代码 更 少 ， 需 要 记录 的 对 象 也 更 少 。 不 过 ， 它 
的 效率 会 稍微 低 一 些 (7432), 在 下 面 几 页 中 , 我 们 首先 会 看 到 原始 的 对 象 ， 然 后 学 习 “ 便 
E AR, Aittir Regex.Macch， 以 及 合适 的 使 用 时 机 。 

为 简便 起 见 ， 在 程序 片段 的 例子 中 ， 我 会 省 略 下 面 这 几 行 ; 

Option Explicit On 


Option Strict On 
Imports System. Text .RegularExpressions 


BAIR 96, 99, 204, 219 和 237 页 出 现 过 VB 的 例子 ， 回 顾 它 们 也 许 有 所 帮助 。 


核心 对 象 概览 


Core Object Overview 


在 深入 细节 之 前 ， 先 来 看 看 .NET 的 正则 对 象 模型 。 对 象 模型 是 一 套 类 结构 ， 正 则 表达 式 的 
各 种 功能 通过 它们 来 提供 。.NET 的 正则 功能 通过 7 个 高 度 交 互 的 类 来 提供 ， 实 际 上 你 可 能 
只 需要 理解 其 中 3 个 一 一 也 就 是 下 一 页 的 图 9-1 所 示 的 3 个 类 一 一 即 可 ,它们 展示 了 对 “May* 
16,"1998” 重 复 应 用 "s+ (\a+) ,的 过 程 。 





Regex 对 象 


第 一 步 是 创建 Regex MR, Win: 


Dim R as Regex = New Regex("\s+(\d+)") 


在 这 里 ， 我 们 用 一 个 Regex 对 象 表示 上 八 s+ (\d+)!, 将 其 保存 在 变量 R 中 。 获 得 regex HH 
之 后 ， 我 们 可 以 通过 Match (text) 方法 将 其 应 用 到 一 段 文本 ， 返 回 与 第 一 次 匹配 结果 相关 的 
信息 : 


Dim M as Match = R.Match({"May 16, 1998") 


iii 
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"\s+(\d+)" 





9-1; .NET 正则 表达 式 相关 对 象 模型 
Match 对 象 


Regex 对 象 的 Match (…) 方法 通过 创建 并 返回 Match 对 象 来 提供 匹配 信息 ,Match 对 象 有 多 
个 属性 ， 包 括 success (一 个 表示 匹配 是 否 成 功 的 Boolean 值 ) 和 value (如 果 匹 配 成 功 ， 
则 保存 实际 匹配 文本 的 副本 )。 稍 后 我 们 会 看 到 Match 的 所 有 属性 的 列表 。 


Match 对 象 返 回 的 细节 中 还 包括 捕获 型 括号 所 匹配 的 文本 。 前 面 Perl 的 例子 使 用 $1 保存 第 
一 组 捕获 型 括号 匹配 的 文本 。.NET 提供 了 两 种 办 法 : 如 果 要 取得 纯 文 本 ， 可 以 按照 索引 值 
访问 Match 对 象 的 Groups 属性 ， 例 如 Groups (1) .value， 它 等 价 于 Perl 的 $1 (请 注意 ， 
C# 中 使 用 的 是 Groups [1] .Value)。 另 一 个 办 法 是 使 用 Result 方法 ， 请 参考 第 429 页 。 
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前 一 段 中 的 Groups (1) 其实 是 对 Group 对 象 的 引用 ,后面 的 .value 引用 它 的 value 属性 (也 
就 是 此 分 组 对 应 的 文本 ) 。 每 一 组 捕获 型 括号 都 对 应 一 个 Group 对 象 ， 另 外 还 有 一 个 “虚拟 
分 组 (virtual group)”， 其 编号 为 0， 它 保存 全 局 匹配 的 信息 。 


因此 ，MatchObj.Value 和 MatchObj.Groups (0) .Value 是 等 价 的 一 一 都 是 全 局 匹配 的 文本 
的 副本 。 第 一 种 写法 更 加 简洁 方便 , 但 我 们 必须 知道 存在 编号 为 0 的 分 组 ， 因 为 MatchObj. 
Groups .Count (也 就 是 Match 关联 的 分 组 的 数目 ) BETE., WE s+ (\a+) ,能 够 匹配 成 
Th, MatchObj.Groups.Count 的 值 就 是 2 (标号 为 0 的 全 局 匹配 和 $1)。 


Capture 对 象 


Capture 对 象 的 使 用 并 不 频繁 ， 请 参考 第 437 页 的 介绍 。 


匹配 时 会 计算 出 所 有 结果 


把 正则 表达 式 应 用 到 字符 串 中 ， 得 到 一 个 Match 对 象 ， 此 时 所 有 的 结果 (匹配 的 位 置 ， 每 
个 捕获 分 组 匹配 的 内 容 等 ) 都 会 计算 出 来 ， 封 装 到 Match 对 象 中 。 访 问 Match 对 象 的 属性 
和 方法 ， 包 括 它 的 Group 对 象 (及 其 属性 和 方法 ) 只 是 取 回 已 经 计算 好 的 结果 。 


核心 对 象 详解 


Core Object Details 


概览 完毕 ， 来 看 细节 。 首 先 ， 我 们 来 看 如 何 创 建 Regex 对 象 ， 然 后 来 看 如 何 将 其 应 用 到 字 
FE, ÆR Match 对 象 ， 以 及 如 何 处 理 这 个 Match MRAIER Group HR. 


在 实践 中 ， 很 多 时 候 不 必 明 确 创建 Regex 对 象 ， 不 过 明确 创建 看 起 来 更 顺眼 ， 所 以 在 讲解 
核心 对 象 时 ， 每 次 都 会 创建 它们 。 稍 后 我 会 告诉 你 .NET 提供 的 简便 方法 。 


在 下 面 的 列表 中 ， 我 会 忽略 从 Object 类 继承 而 来 的 ， 很 少 用 到 的 方法 。 
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创建 Regex 对 象 


Creating Regex Objects 
Regex 的 构造 函数 并 不 复杂 。 它 可 以 接收 一 个 参数 (作为 正则 表达 式 的 字符 串 )， 或 者 是 两 


个 参数 (一 个 正则 表达 式 和 一 组 选项 )。 下 面 是 一 个 参数 的 例子 : 
Dim StripTrailWS = new Regex("\s+$") ' $#HAHE HSH 


它 只 是 创建 Regex， 做 好 应 用 前 的 准备 ， 而 没有 进行 任何 匹配 。 


下 面 是 使 用 两 个 参数 的 例子 : 

Dim GetSubject = new Regex("^subject: (.*)", RegexOptions.IgnoreCase) 
这 里 多 出 了 一 个 RegexOptions 选项 ， 不 过 可 以 用 OR 运算 符 连 接 多 个 选项 ， 例 如 : 

Dim GetSubject = new Regex("“subject: (.*)", _ 


RegexOptions.IgnoreCase OR RegexOptions.Multiline) 


捕获 异常 


如 果 正 则 表达 式 包 含 了 元 字符 的 非法 组 合 ， 就 会 抛 出 argumentException。 通 常 ， 如 果 用 
户 知道 所 使 用 的 正则 表达 式 能 够 正常 工作 , 就 不 需要 捕获 这 个 异常 , 不 过 如 果 使 用 程序 “之 
外 ”( 例 如 由 用 户 输入 ， 或 者 从 配置 文件 读 入 ) 的 正则 表达 式 ， 就 必须 捕获 这 个 异常 。 
Dim R As Regex 
Try 
R = New Regex (SearchRegex) 
Catch e As ArgumentException 
Console.WriteLine("*ERROR* bad regex: " & e.ToString) 
Exit Sub 
End Try 


显然 ， 根 据 情 况 的 不 同 ， 在 检测 到 异常 之 后 可 能 需要 不 同 的 处 理 : 你 可 能 需要 进行 其 他 的 
处 理 ， 而 不 仅仅 是 向 控制 台 输出 报错 信息 。 


Regex 选项 
在 创建 Regex 对 象 时 ， 可 以 使 用 下 面 的 选项 ， 
RegexOpt ions. IgnoreCase 
此 选项 表示 ， 在 应 用 正则 表达 式 时 ， 不 区 分 大 小 写 (7110), 


RegexOptions.IgnorePatternWhitespace 


此 选项 表示 ， 正 则 表达 式 应 该 按照 自由 格式 和 广 释 模式 (711) 来 解析 。 如 果 使 用 单 
纯 的 #'… 注 释 ， 请 确认 在 每 一 个 逻辑 行 的 末尾 都 有 换行 符 ， 否 则 第 一 处 注释 会 “注释 
掉 ” 之 后 的 整个 正则 表达 式 。 


iil 
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在 VB.NET 中 3 我 们 可 以 用 chr ( 10} 来 实现 ， 例如 ; 


Dim R as Regex = New Regex( _ 


"# 匹配 一 个 浮 点 数 ..， " & chr(10) & _ 
" \d+(?:\.\d*) ? E 开头 是 整数 部 分 .、. " & chr(10) & _ 
" | # AB... " & chr(10) & _ 
" \.\d+ # 开头 是 小 数 点 "，_ 


RegexOptions.IgnorePatternWhitespace) 


HUBER, VB.NET 提供 了 更 简便 的 '(?#…) ,注释 : 


Dim R as Regex = New Regex( _ 


" (3?# 匹 配 一 个 浮 点 数 ... )* & _ 
" \d+(?:\.\d*)? {?# 开 头 是 整数 部 分 ... ja k 
aa | (?# 或 者 ... ) ” & 

" \.\a+ (247 KAP RE js 


RegexOptions.IgnorePatternWhitespace) 
RegexOptions.Multiline 
此 选项 表示 ， 正 则 表达 式 在 应 用 时 应 采用 增强 的 行销 点 模式 (9112), HAE, | 
Al's; 能够 匹配 字符 串 内 部 的 换行 符 ， 而 不 仅仅 是 匹配 整个 字符 串 的 开头 和 结尾 。 


RegexOptions.Singleline 


此 选项 表示 ， 正 则 表达 式 使 用 点 号 通 配 模式 (111)。 此 时 点 号 能 够 匹配 任意 字符 ， 
也 包括 换行 符 。 


RegexOptions.ExplicitCapture 


此 选项 表示 ,普通 括号 '(…) 1, 在 正常 情况 下 是 捕获 型 括号 ， 但 此 时 不 捕获 文本 ， 而 是 
与 '(?:…), 一 样 , 只 分 组 , 不 捕获 。 此 时 只 有 命名 捕获 括号 '(?<name>…) ,能 够 捕获 文 
本 。 


如 果 使 用 了 命名 分 组 ， 又 希望 使 用 非 捕 获 型 括号 来 分 组 ， 就 可 以 使 用 正常 的 (…) H 
号 和 此 选项 ， 这 样 程序 看 起 来 更 清晰 。 


RegexOptions.RightToLeft 
此 选项 表示 ， 进 行 从 右 向 左 的 匹配 (7411). 
RegexOptions.Compiled 


此 选项 表示 ， 正 则 表达 式 应 该 在 实际 应 用 时 被 编译 ， 成 为 高 度 优 化 的 格式 ， 这 样 通常 
会 大 大 提高 匹配 速度 。 不 过 这 样 会 增加 第 一 次 使 用 时 的 编译 时 间 ， 以 及 程序 执行 期 间 
的 内 存 占用 。 


如 果 正 则 表达 式 只 需要 应 用 一 次 ,或 者 应 用 并 不 是 很 频繁 ,就 没 必要 使 用 Regex Options. 
Compiled， 因 为 即使 这 个 Regex 对 象 已 经 被 回收 ， 多 占 的 内 存 也 不 会 释放 。 不 过 如 果 
正则 表达 式 在 对 时 间 要 求 很 高 的 场合 应 用 ， 这 个 选项 可 能 非常 有 价值 。 
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在 第 237 页 的 例子 中 ， 使 用 这 个 选项 减少 了 大 约 一 半 的 测试 时 间 。 还 可 以 参考 关于 编 
译 到 装配 件 (assembly) 的 讨论 (7434). 


RegexOpt ions.ECMAScript 


此 选项 表示 ， 正 则 表达 式 应 该 按照 EcmaScript (7412) 兼容 方式 来 解析 。 如 果 不 清 
楚 EcMAScript， 或 者 不 需要 兼容 它 ， 可 以 直接 忽略 。 


RegexOptions.None 


它 表示 “没有 额外 的 选项 ”， 在 初始 化 RegexOptions 变量 时 ， 如 果 需 要 指定 选项 ， 可 
以 使 用 它 。 也 可 以 用 OR 来 连接 其 他 希望 使 用 的 选项 。 


使 用 Regex 对 象 


Using Regex Objects 


在 没有 实际 应 用 之 前 ，Regex 是 没有 意义 的 ， 下 面 的 程序 示范 了 实际 的 应 用 : 


RegexObj .IsMatch (target) Return type: Boolean 
RegexObj .IsMatch(target, offset) 


IsMatch 方法 把 目标 正则 表达 式 应 用 到 目标 字符 串 ， 返 回 一 个 Boolean 值 ， 表 示 匹 配 尝试 
是 否 成 功 ， 这 里 有 个 例子 : 
Dim R as RegexObj = New Regex("*\s*$") 


nse 


If R.isMatch{(Line) Then 
' 如 果 行 为 空 ... 


Endif 
如 果 提 供 了 offset (一 个 整数 )， 则 第 一 次 尝试 会 从 对 应 的 偏 移 值 开始 。 


RegexObj.Match (target) Return type: Match object 
RegexObj.Match (target, offset) 
RegexObj.Match (target, offset, maxlength) 


Match 方法 把 正则 表达 式 应 用 到 目标 字符 串 中 ， 返 回 一 个 match 对 象 。 通 过 这 个 Match 对 
象 可 以 查询 匹配 结果 的 信息 (是否 匹配 成 功 , 捕获 的 文本 等 等 ), 初始 化 此 正则 表达 式 的 “下 
一 次 ”匹配 。Match 对 象 的 细节 见 第 427 页 。 


如 果 提 供 了 offset (一 个 整数 )， 则 第 一 次 尝试 会 从 对 应 的 偏 移 值 开始 。 


如 果 提 供 了 maxiength 参数 ， 会 进行 特殊 模式 的 匹配 ， 从 offset 开始 的 字符 开始 计算 ， 正 则 
引擎 会 把 maxlength 长 度 的 文本 当 作 整 个 目标 字符 串 , 假设 此 范围 之 外 的 字符 都 不 存在 ， 所 
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以 此 时 “能 够 匹配 原来 的 目标 字符 串 中 的 offset 位 置 ,$, 能 够 匹配 之 后 maxlength 个 字符 的 
位 置 。 同 样 ， 环 视 结构 不 能 “感觉 到 ”此 范围 之 外 的 字符 。 这 与 提供 offset 有 很 大 不 同 ， 如 
果 只 提供 了 o 太 et， 受 影响 的 只 是 传动 装置 开始 应 用 正则 表达 式 的 位 置 一 一 正则 引擎 仍然 能 
够 “看 到 ”完整 的 目标 字符 串 。 


下 面 表 格 中 的 例子 比较 了 offset 和 maxlength 的 意义 : 


Z Tias v> à p 后 ark. = Az KĀ 
pree a a ee TEE. 
` yy 机 a aA 
” Pa et ee eed koe hae goa 
l 站 F é 4 







- 


- 7 + , s “Ff 1 
<-> r ~ fy. 
Ne ra E ee ‘ (pines F 
x. Ave at 


16, 
ra 


RegexObj.Match("May 16,1998") 失败 
RegexObj .Match("May 16,1998", 9) 失败 


RegexObj.Match("May 16,1998", 9, 2) mae ‘99’ | 匹配 ‘99’ 


RegexObj .Matches (target) Return type: MatchCollection 
RegexObj .Matches (target, offset) 


Matches 方法 类 似 Match 方法 ， 只 是 Matches 方法 返回 一 组 Match 对 象 ， 代 表 目 标 字 符 串 
中 的 所 有 匹配 结果 ， 而 不 是 第 一 次 的 匹配 结果 。 返 回 的 对 象 为 atchcollection。 


Dim R as New Regex("\w+") 
Dim Target as String = "a few words" 


下 面 的 程序 : 


Dim BunchOfMatches as MatchCollection = R.Matches (Target) 
Dim I as Integer 
For I = 0 to BunchOfMatches.Count - 1 

Dim MatchObj as Match = BunchOfMatches.Item(I) 


Console.WriteLine("Match: " & MatchObj.Value) 
Next 


运行 结果 是 : 


Match: a 
Match: few 
Match: words 


下 面 的 程序 输出 同样 的 结果 ， 它 说 明 ，Matchcollection 对 象 可 以 一 次 分 配 整 个 Match- 
Collection。 
Dim MatchObj as Match 


For Each MatchObj in R.Matches (Target) 


Console.WriteLine("Match: " & MatchObj.Value) 
Next 
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作为 比较 ， 下 面 的 代码 也 可 以 达到 同样 的 效果 ， 使 用 Match (而 不 是 Matches) 方法 : 


Dim MatchObj as Match = R.Match(Target) 

While MatchObj.Success 
Console.WriteLine("Match: " & MatchObj.Value) 
MatchObj = MatchObj.NextMatch() 

End While 


RegexObj.Replace (target, replacement) Return type: String 
RegexObj.Replace (target, replacement, count) 
RegexObj.Replace (target, replacement, count, offset) 


Replace 方法 会 在 目标 字符 串 中 进行 查找 -替换 ， 返 回 (有 可 能 已 经 变化 的 ) 字符 串 副本 。 它 
应 用 的 是 Regex 对 象 的 正则 表达 式 ， 返 回 的 不 是 Match 对 象 ， 而 是 替换 的 结果 。 匹 配 的 文 
本 被 什么 内 容 替 换 ， 取 决 于 replacement 参数 。replacement 参数 可 以 重 载 : 它 可 以 是 AF 
符 串 ， 也 可 以 是 MatchEvaluator 委托 (delegate)。 如 果 replacement 是 一 个 字符 串 ， 它 会 
按照 下 一 页 补充 内 容 的 说 明 进 行 处 理 。 例 如 ， 

Dim R_CapWord as New Regex("\b[A-Z] \w*") 

Text = R_CapWord.Replace(Text, "<B>$0</B>") 


把 每 一 个 大 写 单词 两 边 加 上 <B>…</B>。 


如 果 设 置 了 count, 就 只 会 进行 count 次 替换 (默认 情况 是 进行 所 有 的 替换 )。 如 果 只 希望 替 
换 第 一 次 匹配 ， 可 以 将 count 设置 为 1。 如 果 我 们 知道 只 会 有 一 次 匹配 ， 把 count 明确 设置 
为 1 的 效率 会 更 高 ， 因 为 不 需要 对 字符 串 的 其 他 部 分 进行 查找 和 处 理 。 把 count 设置 为 -1 
表示 “所 有 匹配 都 必须 替换 ”( 它 等 价 于 没有 设置 count)。 


如 果 设 置 了 offset (一 个 整数 )， 则 应 用 正则 表达 式 时 ， 目 标 字符 串 中 对 应 数目 的 字符 会 被 
忽略 。 这 些 忽 赂 的 字符 会 直接 被 复制 到 结果 中 。 
例如 ， 这 段 代 码 会 去 掉 多 余 的 空白 字符 (也 就 是 将 连续 的 多 个 空白 字符 替换 为 单个 空格 ) : 


Dim AnyWS as New Regex("\s+") 


Target = AnyWS.Replace(Target, " ") 
“some……random……spacing” 被 替换 为 “some'randomspacing"。 下 面 代码 的 结果 相 
同 ， 只 是 它 会 保留 行 开头 任意 数目 的 空白 字符 。 


Dim AnyWS as New Regex("\s+") 
Dim LeadingWS as New Regex("*\s+") 


Wes 


Target = AnyWS.Replace(Target, " ", -1, LeadingWS.Match( Target) .Length) 


www.TopSage.com 


424 第 9 章 : NET 


它 会 把 “………some*…random…*…spacing” 转 化 为 “…*some*random*spacing' ， 在 查找 和 村 
换 时 ， 它 使 用 Leadingws 匹配 文本 的 长 度 作为 偏 移 值 (就 是 要 跳 过 的 字符 数目 ) 。 这 里 用 到 
了 Match 对 象 的 简便 特性 ， 即 LeadingWs .Match(Target) 的 Length 属性 (即便 失败 也 没 
问题 ， 此 时 Length 的 值 为 0， 也 就 是 说 我 们 需要 对 整个 目标 字符 串 应 用 anyws ) 。 


特殊 的 Replacement 处 理 


Regex.Replace 方法 和 Match.Result 方法 都 可 以 接收 能 够 进行 特殊 处 理 的 
replacement 字符 事 。 下 面 的 字符 序列 会 被 匹配 的 文本 所 替换 : 


eA 
me e aa 
i t y 


整个 表达 式 匹配 的 文本 (等 于 $0) 
和 对 应 编号 的 捕获 分 组 匹配 的 文本 
$ {name)} 对 应 命名 捕获 分 组 匹配 的 文本 

$' 目标 字符 事 中 匹配 文本 之 前 的 文本 


$ 目标 字符 事 中 匹配 文本 之 后 的 文本 

$$ 单个 “$ ”字符 

$_ 整个 原始 目标 字符 事 的 副本 

$+ 见 说 明 

目前 ，$+ 几 乎 是 没有 用 的 。 它 源 自 Perl 中 的 $+ 变量 ， 即 实际 参与 匹配 的 捕获 型 括号 中 
编号 最 大 的 那个 (第 202 页 有 一 个 例子 ) 。 而 .NET 的 replacement 字符 事 中 的 $+ 只 是 引 
用 正则 表达 式 中 最 靠 后 的 那个 捕获 型 括号 匹配 的 文本 。 因 为 捕获 型 括号 会 重新 编号 一 
一 在 使 用 命名 型 捕获 时 ， 会 自动 进行 这 种 操作 (只 409) ， 所 以 它 基本 没有 用 。 

除了 上 面 的 情况 之 外 ， 任 何 情况 下 在 replacement 字符 囊 中 使 用 “$” 都 完全 没 问题 。 





使 用 replacement 委托 


replacement 参数 不 只 能 用 简单 字符 串 ， 还 可 以 是 委托 (delegate， 简 单 说 就 是 函数 指针 )。 
代理 函数 在 每 次 匹配 之 后 调用 ， 生 成 作为 replacement 的 文本 。 因 为 这 个 函数 能 够 进行 我 们 
需要 的 任何 处 理 ， 这 种 查找 替换 的 机 制 功能 非常 强大 。 


委托 的 类 型 是 MatchEvaluator， 每 次 匹配 都 会 调用 。 它 所 引用 的 函数 必须 接受 Match 对 
象 ， 进 行 你 所 需要 的 任何 处 理 ， 返 回 作为 replacement 的 文本 。 
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做 个 比较 ， 下 面 两 段 程序 输出 同样 的 结果 : 


Target = R.Replace(Target, "<<$&>>") ) 


Function MatchFunc(ByVal M as Match) as String 
return M.Result ("<<§&>>") 
End Function 
Dim Evaluator as MatchEvaluator = New MatchEvaluator (AddressOf MatchFunc) 


Target = R.Replace(Target, Evaluator) 


两 段 程 序 都 用 <<…>> 标 注 匹 配 的 文本 。 使 用 委托 的 好 处 在 于 ， 在 计算 replacement 时 我 们 可 
以 进行 任意 复杂 的 操作 。 下 面 的 例子 把 摄氏 温度 转换 为 华氏 温度 : 
Function MatchFunc(ByVal M as Match) as String 
' 从 $1 获得 温度 数值 ， 转 换 为 华氏 温度 


Dim Celsius as Double = Double. Parse(M.Groups(1).Value) 
Dim Fahrenheit as Double = Celsius * 9/5 + 32 
Return Fahrenheit & "F" :添加 "F"， 然 后 返回 

End Function 


Dim Evaluator as MatchEvaluator = New MatchEvaluator (AddressOf MatchFunc} 


semos 


Dim R_Temp as Regex = New Regex("(\d+)C\b", RegexOptions.IgnoreCase) 
Target = R_Temp.Replace(Target, Evaluator) 


如 果 目 标 字 符 串 中 包含 “Temp is 37c.’， 它 会 被 替换 为 “Temp is 98.6F.’, 


RegexObj.Split (target) Return type: array of String 
RegexObj.Split (target, count) 
RegexObj.Split (target, count, offset) 


Split 方法 将 目标 正则 表达 式 应 用 于 目标 字符 串 ， 返 回 由 各 匹配 分 隔 的 字符 串 数 组 。 如 下 
面 这 个 例子 所 示 : 

Dim R as New Regex("\.") 

Dim Parts as String() = R.Split("209.204.146.22") 
R.Split 返回 包含 四 个 字符 串 的 数组 (209°, ‘204°, "146” 和 “22 ) ， 它 们 由 疏 .在 目 
标 字 符 串 中 的 三 次 匹配 来 分 隔 。 


如 果 提 供 了 count 参数 ， 则 至 多 返回 count 个 字符 串 〈 除 非 使 用 了 捕获 型 括号 ， 一 会 儿 会 说 
到 这 个 问题 )。 如 果 没 有 提供 count, split 返回 所 有 匹配 分 隔 的 字符 串 。 提 供 count 的 意思 
是 ， 正 则 表达 式 可 能 在 找到 最 终 匹 配 之 前 停止 应 用 ， 若 果真 如 此 ， 数 组 中 最 后 的 元 素 就 是 
目标 字符 串 中 余下 的 部 分 。 


Dim R as New Regex("\.") 
Dim Parts as String() = R.Split("209.204.146.22", 2) 


Rt, Parts GAAS EA, ‘209° FF ‘204.146.22’, 
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如 果 设 置 了 offset (一 个 整数 )， 则 正则 表达 式 的 匹配 尝试 从 对 应 编号 的 字符 开始 。 前 面 的 
offset 个 字符 会 作为 数组 的 第 一 个 元 素 返回 〈 如 果 设 置 了 Regexoptions .RightToLefc， 就 
会 作为 最 后 一 个 元 素 )。 


在 Split 中 使 用 捕获 型 括号 


如 果 出 现 了 任何 形式 的 捕获 型 括号 ， 数 组 中 通常 会 包含 额外 的 捕获 文本 (也 有 些 情况 下 根 
本 不 会 包含 ) 。 来 看 个 简单 的 例子 ， 要 拆 分 字符 串 “2006-12-31” 或 是 “04/12/2007"， 你 
可 能 会 使 用 [-/]): 


Dim R as New Regex("[-/]") 

Dim Parts as String() = R.Split (MyDate) 
结果 包含 3 个 元 素 ( 均 为 字符 串 )。 不 过 ， 使 用 捕获 型 括号 的 正则 表达 式 "([-/,]),;,， 则 会 
ee 如 果 MyDate MA ‘2006-12-31’, X 5 PITCH *2006’. ‘-', ‘12°, 


Peng o 多 出 来 的 “ ”是 每 次 捕获 的 $1。 


如 果 有 多 组 捕获 型 括号 ， 它 们 会 按照 编号 排序 (也 就 是 说 ， 所 有 的 命名 捕获 跟随 在 未 命名 
捕获 之 后 了 409)。 


只 要 实际 参与 了 匹配 捕获 型 括号 的 捕获 型 括号 ， 都 会 包含 在 split 的 结果 中 。 不 过 ， 目 前 
的 .NET 有 一 个 bug， 即 如 果 某 组 捕获 型 括号 没有 参与 匹配 ， 它 和 所 有 编号 更 靠 后 的 捕获 型 
括号 都 不 会 包含 在 返回 的 结果 中 。 


来 看 个 极端 点 的 例子 ， 如 果 需 要 以 左右 可 能 出 现 空白 字符 的 逗号 作为 分 隔 ， 而 且 空 白字 符 

必须 包含 在 返回 结果 中 。 用 '(\s+)?, (\s+)?1 分 隔 “his that’, BRPUR SFR ‘this’, 

‘e 和 “that 。 但 是 ， 如 果 目 标 字符 串 为 “this, "that"， 因 为 第 一 组 捕获 型 括号 

没有 参与 最 终 匹 配 ， 所 有 的 捕获 型 括号 都 不 包含 在 最 终结 果 中 ， 所 以 只 会 返回 两 个 字符 串 

‘this” 和 “that'。 无 法 预知 到 底 会 返回 多 少 字 符 串 ， 是 当前 版 本 的 .NET 的 一 个 重大 问 
题 。 


在 这 个 例子 中 , 我 们 可 以 使 用 (\s*) ,(\s*)1 绕 开 这 个 问题 (这 样 两 个 分 组 一 定 都 能 参与 匹 
配 )。 不 过 ， 更 复杂 的 表达 式 就 没 这 么 容易 改写 了 。 
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RegexObj .GetGroupNames ( ) 

RegexObj .GetGroupNumbers ( ) 

RegexObj .GroupNameFromNumber( number ) 
RegexObj .GroupNumberFromName( name ) 


这 几 个 方法 容许 用 户 查询 对 应 编号 (可 以 用 数字 ， 如 果 是 命名 捕获 ， 也 可 以 用 名 字 ) 的 捕 
获 型 分 组 的 信息 。 它 们 引用 的 不 是 特定 的 匹配 内 容 ， 只 是 正则 表达 式 中 存在 的 分 组 的 名 字 
和 编号 。 下 面 的 补充 内 容 说 明了 使 用 方法 。 

RegexObj .ToString() 


RegexObj .RightToLeft 
RegexObj .Options 


这 几 个 方法 容许 用 户 查 询 Regex MREF (而 不 是 将 此 对 象 应 用 到 字符 串 上 ) 的 信息 。 
TosString1() 方 法 返回 正则 表达 式 构 造 函 数 接收 的 字符 串 。RightToLeft 属性 返回 一 个 
Boolean 值 ， 表 明 它 是 否 启 用 了 RegexOptions.RightToLeft 选项 。options 属性 返回 与 
此 正则 表达 式 相 关 的 Regexoptions。 下 面 说 明了 各 个 选项 的 值 ， 把 对 应 选项 的 值 相 加 ， 就 
得 到 返回 结果 。 


0 None 16 Singleline 

1 IgnoreCase 32 IgnorePatternWhitespace 

2 Multiline 64 RightToLeft 

4 ExplicitCapture 256 ECMAScript 

8 Compiled 
这 里 没有 128， 因 为 它 用 于 微软 内 部 的 调试 ， 没 有 出 现在 最 终 产 品 中 。 
补充 内 容 给 出 了 这 些 方法 的 应 用 实例 。 


使 用 Match 对象 


Using Match Objects 


有 三 种 方法 创建 Match HR: Regex 的 Match HA, MAHAR Regex.Match ( 稍 后 介绍 ) 
和 Match 对 象 自己 的 NextMatch 方法 。 它 封装 某 个 正则 表达 式 的 单 次 应 用 的 所 有 相关 信息 。 
其 属性 和 方法 如 下 : 


MatchObj . Success 


返回 一 个 Boolean 值 ， 表 示 匹 配 是 否 成 功 。 如 果 不 成 功 ， 则 返回 一 个 静态 的 Match. Empty 
WR (7433), 


MatchObj .value 
MatchObj .Tostring() 


它 返回 实际 匹配 文本 的 副本 。 
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显示 Regex 对 象 的 信息 


这 段 代码 显示 了 Regex 对 象 RR 的 信息 


' 显示 关于 Regex EER 的 已 知 信息 
Console.WriteLine("Regex is: " & R.ToString()) 
Console.WriteLine("Options are: " & R.Options) 
If R.RightToLeft 

Console.WriteLine("Is Right-To-Left: True") 
Else 

Console.WriteLine("Is Right-To-Left: False") 
End If 


Dim S as String 
For Each S in R.GetGroupNames () 
Console.WriteLine("Name """ & S & """ is Num #" & 
R.GroupNumberFromName (S$) ) 


Next 

Console.WriteLine("---") 

Dim I as Integer 

For Each I in R.GetGroupNumbers () 


Console.WriteLine("Num #" & I & " is Name """ & _ 
R.GroupNameFromNumber (I) & """") 
Next 


再 执行 一 次 ， 用 下 面 的 方法 创建 Regex at g. 
New Regex("*(\w+) ://([*/} +) (/\S*)") 
New Regex ("*(?<proto>\w+)://(?<host>[%*/]+) (?<page>/\S*)", 
RegexOptions.Compiled) 


得 到 下 面 的 结果 (为 适应 排版 ， 有 个 正则 表达 式 省 略 了 后 半 段 ) 


Regex is: *(\w+)://([*/]+)(/\S*) Regex is: “*(?<proto>\w+)://(?<host> .… 
Option are: 0 Option are: 8 

Is Right-To-Left: False Is Right-To-Left: False 

Name "0" is Num #0 Name "0" is Num #0 

Name "1" is Num #1 Name “proto" is Num #1 

Name "2" is Num #2 Name "host" is Num #2 

Name "3" is Num #3 Name "page" is Num #3 


Num #0 is Name "0" Num #0 is Name "0" 

Num #1 is Name "1" Num #1 is Name "proto" 
Num #2 is Name "2" Num #2 is Name "host" 
Num #3 is Name "3" Num #3 is Name "page" 
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MatchObj . Length 


返回 实际 匹配 文本 的 长 度 。 


MatchObj . Index 


返回 一 个 整数 ， 显 示 匹 配 文 本 在 目标 中 的 起 始 位 置 。 编 号 从 0 开始 ， 所 以 这 个 数字 表示 从 
目标 字符 串 的 开头 (最 左边 ) 到 匹配 文本 的 开头 〈 最 左边 ) 的 长 度 。 即 使 在 创建 Match 对 
象 时 设置 了 Regexoptions .RightToLeft， 回 值 也 不 会 变化 。 


MatchObj .Groups 


此 属性 是 一 个 GroupCollection 对 象 ， 其 中 封装 了 多 个 Group 对 象 。 它 是 一 个 普通 的 集合 
类 (collection)， 包 含 了 Count 和 Item 属性 ， 但 是 最 常用 的 办 法 还 是 按照 索引 值 访问 ， 肥 
出 对 应 的 Group HER. AN, M. Groups (3) 对 应 第 3 组 捕获 型 括号 ,M.Groups ("HostName") 
对 应 命名 捕获 “HostName” (正则 表达 式 中 的 (?<HostName>…) ))。 


在 C# 中 ， 使 用 M.Groups[3] 和 M.Groups["HostName"]。 


编号 为 0 的 分 组 表示 整个 正则 表达 式 匹 配 的 所 有 文本 。MatchObj.Groups (0) . Value 等 价 于 
MatchObji .Value。 


MatchObj .NextMatch () 


NextMatch() 方 法 将 正则 表达 式 应 用 于 目标 字符 串 ， 和 寻找 下 一 个 匹配 ， 返 回 新 的 Match 对 
象 。 


MatchObj . Result (string) 


string 是 一 个 特殊 的 序列 ， 按 照 第 424 页 补充 内 容 的 介绍 来 处 理 ， 返 回 结果 文本 。 这 里 有 个 
简单 例子 : 


Dim M as Match = Regex.Match(SomeString, "\w+") 
Console.WriteLine(M.Result ("The first word is ‘$&’")) 


下 面 的 程序 可 以 依次 匹配 内 容 左 侧 和 右 侧 文 本 的 副本 


M.Result ("$") ' 这 是 匹配 内 容 左 侧 的 文本 
M.Result ("$") ' 这 是 匹配 内 容 右 侧 的 文本 


调试 时 可 能 需要 显示 某 些 和 行 有 关 的 信息 : 


M.Result ("[$‘<S$&>$’]")) 


如 果 把 八 a+, 应 用 到 “ay 16, 1998’ 得 到 的 Match 对象， 返回 的 是 “May <16>, 1998’, 
这 清楚 地 体现 了 匹配 文本 。 
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MatchObj . Synchronized () 


它 返 回 一 个 新 的 ， 与 当前 Match 完全 一 样 的 Match 对 象 ， 只 是 它 适 合 于 多 线程 使 用 。 
MatchObj .capturee 


captures 属性 并 不 常用 ， 参 见 第 437 页 的 介绍 。 


使 用 Group 对 象 


Using Group Objects 

Group 对 象 包含 一 组 捕获 型 括号 (如 果 编 号 是 0， 就 表示 整个 匹配 ) 的 信息 。 其 属性 和 方法 
如 下 : 

GroupObji. Success 

它 返 回 一 个 Boolean É, 表明 此 分 组 是 否 参 与 了 匹配 。 并 不 是 所 有 的 分 组 都 必须 “参与 ”成 


功 的 全 局 匹配 。 如 果 (this) 1 (that), 能 够 成 功 匹 配 , 肯定 有 一 个 分 组 能 参与 匹配 ， 另 一 个 
不 能 。 第 139 页 的 脚注 中 有 另 一 个 例子 。 


GroupObj .Value 
GroupObj .To8tring() 


它们 都 返回 本 分 组 捕获 文本 的 副本 。 如 果 匹 配 不 成 功 ， 则 返回 空 字 符 串 。 
GroupObj . Length 
返回 本 分 组 捕获 文本 的 长 度 。 如 果 匹 配 不 成 功 ， 则 返回 0。 


GroupObj . Index 


返回 一 个 整数 ， 表 示 本 分 组 捕获 的 文本 在 目标 字符 串 中 的 位 置 。 编 号 从 0 开始 ， 所 以 它 就 
是 从 目标 字符 串 的 开头 (最 左边 ) 到 捕获 文本 的 开头 (最 左边 ) 的 长 度 (即使 在 创建 Match 
对 象 时 设置 了 Regexoptions .RightToLeft， 结 果 仍 然 不 变 )。 


GroupObj . Captures 


请 参考 第 437 页 Group 对 象 的 capture 属性 。 


It 
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静态 “便捷 ”函数 


Static “Convenience” Functions 


在 第 413 页 的 “正则 表达 式 快 速 和 门 ” 中 已 经 看 到 ， 我 们 并 不 需要 每 次 都 显 式 地 创建 Regex 
对 象 。 我 们 可 以 通过 下 面 的 静态 函数 直接 使 用 正则 表达 式 : 

Regex.IsMatch(target, pattern) 

Regex.IsMatch(target, pattern, options) 


Regex.Match(target, pattern) 
Regex.Match(target, pattern, options) 


Regex.Matches(target, pattern) 
Regex.Matches(target, pattern, options) 


Regex.Replace(target, pattern, replacement) 
Regex.Replace(target, pattern, replacement, options) 


Regex.Split(target, pattern) 

Regex.Split(target, pattern, options) 
其 实 它们 不 过 是 包装 了 已 经 介绍 的 主要 的 Regex 构造 国 数 和 方法 而 已 。 它 们 会 临时 创建 一 
个 Regex 对 象 ， 用 它 来 调用 请 求 的 方法 ， 然 后 弃 用 这 个 对 象 (其 实 并 没有 弃 用 ， 稍 后 介绍 ) 
这 里 有 个 例子 : 

If Regex.IsMatch(Line, "*\s*$") 


soaps 


它 等 价 于 : 


Dim TemporaryRegex = New Regex("*\s*$") 
If TemporaryRegex.IsMatch (Line) 


nats 


或 者 ， 更 确切 地 说 是 : 

If New Regex("^\s*$").IsMatch{Line) 
使 用 这 些 便捷 函数 的 好 处 在 于 ， 代 码 因 此 更 清晰 易 懂 。 面 向 对 象 式 处 理 看 起 来 像 函 数 式 处 
理 (了 95)， 坏 处 在 于 每 次 调用 都 必须 重新 检查 pattern FHR, 


如 果 在 整个 程序 的 执行 过 程 中 ， 正 则 表达 式 只 用 到 1 次 ， 就 不 需要 考虑 便捷 函数 的 效率 问 
题 。 但 是 ， 如 果 需 要 应 用 多 次 (例如 在 循环 中 ， 或 者 是 频繁 调用 的 函数 中 )， 每 次 准备 正则 
表达 式 都 需要 代价 (241)。 创 建 Regex 对 象 ， 然 后 重复 使 用 的 主要 原因 之 一 就 是 ， 使 用 
便捷 函数 的 效率 太 低 。 不 过 ， 下 一 节 将 告诉 我 们 ，.NET 提供 了 一 种 很 好 的 解决 办 法 : FA 
面向 对 象 的 效率 和 范 数 式 处 理 的 便捷 。 
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正则 表达 式 缓存 


Regex Caching 


为 简单 的 正则 表达 式 构 建 并 管理 Regex 对 象 很 不 方便 , 所 以 .NET AYER HEH T AHRS 
方法 。 但 这 些 静态 方法 存在 效率 缺陷 ， 即 每 次 调用 都 需要 创建 临时 的 Regex HR, WHE, 
然后 弃 用 。 如 果 在 循环 中 需要 多 次 应 用 同样 的 正则 表达 式 ， 就 需要 进行 许多 不 必要 的 工作 。 


为 了 避免 重复 的 工作 ，.NET Framework 能 够 缓存 静态 方法 创建 的 临时 变量 。 第 6 章 已 经 大 
致 介绍 过 缓存 (244)， 简 单 地 说 ， 缓 存 的 意思 就 是 如 果 你 希望 在 静态 方法 中 使 用 “最 近 ” 
使 用 过 的 正则 表达 式 ， 此 方法 就 会 重用 之 前 创建 的 正则 对 象 ， 而 不 是 重新 创建 一 个 新 对 象 。 


“最 近 ” 的 默认 意义 是 缓存 15 个 正则 表达 式 。 如 果 循 环 中 使 用 的 正则 表达 式 超过 15 个 ， 
则 第 16 个 正则 表达 式 会 取代 第 1 个 ， 所 以 进入 下 一 轮 循环 时 ， 第 一 个 正则 表达 式 已 经 不 在 
缓存 中 ， 必 须 重 新 生成 。 


如 果 默 认 值 15 太 小 ， 可 以 这 样 调 整 ， 
Regex.CacheSize = 123 


如 果 希 望 禁用 缓存 ， 可 以 将 其 设置 为 0。 


支持 函数 


Support Functions 


除了 之 前 讨论 过 的 便捷 函数 ， 还 有 一 些 静态 的 支持 函数 ， 

Regex. Escape (String) 

Regex.Escape(…) 返 回 此 字符 串 的 副本 ， 其 中 的 元 字符 会 进行 转 义 。 这 样 处 理 的 字符 串 就 
能 够 作为 文字 字符 串 供 正则 表达 式 使 用 。 

例如 ， 如 果 用 户 的 输入 保存 在 字符 串 searchTerm 中 ， 我 们 可 以 这 样 构建 正则 表达 式 ; 


Dim UserRegex as Regex = New Regex("*" & Regex.Escape(SearchTerm) & "$", _ 
RegexOpt ions. IgnoreCase) 


这 样 ， 用 户 输入 的 元 字符 就 不 会 被 特殊 处 理 了 。 如 果 不 转 义 ， 假 设 用 户 输入 了 “:-) aR 


会 抛 出 ArgumentException 异常 (7419), 
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Regex. Unescape (string) 


这 个 函数 有 点 奇怪 ， 它 接收 一 个 字符 串 ， 返 回 此 字符 串 的 副本 ， 不 过 要 处 理 其 中 的 元 字符 ， 
去 掉 其 他 的 反 斜 线 。 如 果 输 入 的 是 、:\-\) ， 返 回 值 就 是 “:-) 。 


字符 缩 略 表示 法 也 会 被 解码 。 接 收 的 字符 串 中 的 “\n ”会 被 替换 为 换行 符 ,“\ul234 ”会 被 
替换 为 对 应 的 Unicode 字符 。 第 407 页 列 出 的 所 有 字符 缩 略 表示 法 都 会 被 处 理 。 


我 想象 不 出 Regex .Unescape 有 多 么 重要 的 价值 ， 不 过 了 解 转 义 规定 的 用 户 也 许 能 把 它 当 
EER VB 字符 串 的 通用 工具 。 


Match.Empty 


此 函数 返回 代表 匹配 失败 的 Match 对 象 。 它 的 用 处 可 能 在 于 ， 如 果 初 始 化 的 某 个 Match 对 
象 将 来 不 一 定 会 被 用 到 ， 但 又 必须 能 够 查询 。 这 里 有 个 简单 的 例子 : 


Dim SubMatch as Match = Match.Empty ' 初 始 化 一 个 Macch， 但 下 面 不 一 定 会 设 定 


sers.. 


Dim Line as String 
For Each Line in EmailHeaderLines 
' 如果 这 是 标题 ， 保 存 匹 配 的 信息 ... 
Dim ThisMatch as Match = Regex.Match(Line, "“Subject:\s*(.*)", _ 
RegexOptions. IgnoreCase) 
If ThisMatch.Success 
SubMatch = ThisMatch 
End If 


sesser 


nets 


If SubMatch.Success 
Console.WriteLine(SubMatch.Result ("The subject is: $1")) 
Else 
Console.WriteLine("No subject!") 
End If 
如 果 字 符 串 数组 EmailHeaderLines 没有 任何 行 (或 者 没有 Subject 47), 程序 中 的 循环 就 
不 会 设置 subMatch， 如 果 subMatch 没有 初始 化 ， 循 环 之 后 检查 subMatch 会 得 到 一 个 空 


引用 异常 。 这 种 情况 下 用 Match. Empty 来 初始 化 就 很 方便 。 


Regex.CompileToassembly(…) 


它 容 许 用 户 创造 一 个 装配 件 (assembly) ， 封 装 正则 表达 式 一 一 参见 下 一 节 。 


L 
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NET 高 级 话题 


Advanced .NET 





下 面 的 内 容 涉 及 某 些 尚未 介绍 过 的 特性 : 通过 正则 装配 件 (regex assemblies) 构建 正则 表达 
式 库 ， 使 用 NET 专属 的 特性 匹配 嵌 套 结构 ， 以 及 对 Capture 对 象 的 讲解 。 


正则 表达 式 装配 件 


Regex Assemblies 


NET 能 够 把 Regex 对 象 封装 到 装配 件 (assembly) 中 ， 在 构建 正则 表达 式 库 时 这 很 有 用 。 
一 页 的 补充 内 容 提 供 了 示例 。 


运行 补充 内 容 中 的 例子 ， 能 够 在 当前 工程 的 bin 代码 目录 下 创建 JfriedlsRegexLibrary. DLL, 
然后 我 们 可 以 通过 Visual Studio .NET 的 Project > Add Reference 将 其 加 入 , 在 其 他 工程 中 使 
用 这 个 装配 件 。 
要 使 用 装配 件 中 的 类 ， 首 先 必须 导入 : 

Imports jfriedl 


然后 就 可 以 像 其 他 任何 类 一 样 引用 它们 ， 例 如 : 


Dim FieldRegex as CSV.GetField = New CSV.GetField ' 生 成 新 的 regex 对 象 


www 


Dim FieldMatch as Match = FieldRegex.Match(Line) ' 应 用 到 字符 事 ... 
While FieldMatch.Success 
Dim Field as String 
If FieldMatch.Groups(1).Success 
Field = FieldMatch.Groups(" 性、 ) .Value 


Field = Regex.Replace(Field, """"*"" ，"""") :把 连 在 一 起 的 引号 替换 为 单个 引号 
Else 

Field = FieldMatch.Groups("UnquotedField") .Value 
End If 


Console.WriteLine("(" & Field & "]") 
' 现在 可 以 处 理 ' Field... 


FieldMatch = FieldMatch.NextMatch 
End While 


在 这 个 例子 中 ， 我 仅仅 从 jfriedl namespace 导入 ,但 也 可 以 很 简单 地 从 jfiedi.csv 
namespace 导入 ， 然 后 这 样 创建 Regex MR: 


Dim FieldRegex as GetField = New GetField ' 生 成 新 的 regex 对 象 


这 是 两 种 风格 。 
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通过 装配 件 构建 自己 的 正则 表达 式 库 


这 个 例子 构建 了 一 个 小 规模 的 正则 表达 式 库 。 完 整 的 程序 构建 了 一 个 装配 件 (DLL), 
其 中 和 包含 三 个 已 经 生成 的 Regex Hit HK: jfriedl.Mail.Subject, jfriedl.Mail. 
From fe jfried1.CSV.GetField, 


前 两 者 很 简单 ， 一 眼 就 能 明白 ， 最 后 那个 复杂 的 构造 函数 展示 了 构建 库 的 约定 
(promise) 。 请 注意 ， 这 里 不 需要 设 定 RegexOptions .Compiled，、 因 为 在 构造 装配 件 
时 已 经 隐 含 地 设 定 了 。 


关于 如 何 使 用 构建 好 的 装配 件 ， 请 参考 第 434 页 。 
Option Explicit On 
Option Strict On 


Imports System.Text.RegularExpressions 
Imports System.Reflection 


Module BuildMyLibrary 
Sub Main() 
′ 下面 调用 regexCompliationInfo 时 提供 了 pattern、regex 选项 、 类 内 部 的 名 称 、 
′ 以 及 一 个 Boolean 值 表明 类 是 否 public。 举 例 来 说 ， 要 使 用 第 一 个 类 ， 
“程序 必须 使 用 装配 件 中 "jfriedl .Mail.Subject" 作 为 Regex 的 构造 函数 。 
Dim RCInfo() as RegexCompilationInfo = { 
New RegexCompilationInfo ( 
"*“Subject:\s*(.*)", RegexOptions.IgnoreCase, 
"Subject", "“jfriedl.Mail", true), 
New RegexCompilationInfo ( 
"“From:\s*(.*)", RegexOptions.IgnoreCase, 
"From", “jfriedl.Mail", true), 
New RegexCompilationInfo ( 
"\G(2:“1,) 
"(?: 
(?# 或 者 是 双 引 号 字段 ... ) 
"" (FE 起 始 双 引号 ) 
(?<QuotedField> (?> [*""]+ | """" )* ) 
"n (2# 结束 双 引 号 ) 
(?# ... 或 者 ... ) 
| 
(?# ... 非 引号 / 非 过 号 文本 ... ) 
(?<UnquotedField> [*"",]*) 
idl aie 
RegexOptions.IgnorePatternWhitespace, 
"GetField", "jfriedl.cSv", true) 


RMD RM DM WM RM WM RK 


} 
' 现 在 进行 主要 的 处 理 ， 生 成 结果 . . . 
Dim AN as AssemblyName = new AssemblyName() 
AN.Name = "JfriedlsRegexLibrary" ‘DLL 文件 的 名 字 
AN.Version = New Version("1.0.0.0") 
Regex.CompileToAssembly (RCInfo，AN)' 构 建 完成 
End Sub 
End Module 
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也 可 以 不 进行 任何 导 和 人 ， 而 是 直接 使 用 : 
Dim FieldRegex as jfriedl.CSV.GetField = New jfriedl.CSV.GetField 


这 有 点 麻烦 ， 但 是 清楚 地 说 明了 对 象 的 出 处 。 同 样 ， 这 只 是 风格 的 问题 。 


CREAN 


Matching Nested Constructs 


微软 提供 了 一 种 创新 的 功能 ， 专 门 用 于 匹配 对 称 的 结构 (长 期 以 来 ， 正 则 表达 式 对 此 无 能 
为 力 ) 。 它 理解 起 来 并 不 容易 一 一 本 节 篇 幅 不 长 ， 但 请 注意 ， 其 中 的 内 容 分 量 不 少 。 


最 简单 的 办 法 就 是 用 一 个 例子 来 说 明 : 


Dim R As Regex = New Regex( " \( 
" (?> 

[^()]+ 

| 

\( (?<DEPTH>) 

| 

\) (?<-DEPTH>) 
}* 
(? (DEPTH) (?!)) 

" \) 

RegexOptions.IgqnorePatternWhitespace) 


它 匹 配 第 一 组 正确 配对 的 艇 套 括 号 ， 例 如 “before (nope (yes (here) okay) after’ 
中 用 下 画 线 标注 的 部 分 。 第 一 个 开 括 号 不 会 匹配 ， 因 为 它 没 有 对 应 的 闭 括号 。 


这 里 简要 说 明了 程序 的 工作 原理 : 


222828 3 s 3s z 3 
RRR RR Rw SR —K 





1. 每 匹配 一 个 (超过 正则 表达 式 开头 (的)“(",'(?<DEPTH>) ,会 把 正则 表达 式 保存 的 当 
ATE SRE EA MM 1。 


2. 每 匹配 一 个 “) ','(?<-DEPTH>) ,会 把 深度 减 1。 
3. '(2? (DEPTH) (?!) )) 确保 最 后 的 仆 ) | 匹配 时 ， 深 度 应 该 为 0。 


因为 引擎 的 回 澳 堆栈 保存 了 当前 匹配 成 功 分 组 的 信息 ， 这 个 办 法 没有 问题 。'(?<DEPTH>)， 
只 是 使 用 了 命名 捕获 的 '0) , 它 总 是 能 成 功 匹配 。 因为 它 紧 跟 在 (之 后 , 它 的 成 功 匹配 (此 
信息 会 保存 在 堆栈 中 ， 直 到 出 栈 为 止 ) 用 于 标记 开 括号 的 数目 。 


因此 ， 当 前 已 经 成 功 匹 配 的 “DEPTH” 分 组 总 数 就 保存 在 回 滴 堆 栈 中 。 我 们 希望 在 找到 闭 括 
号 之 后 减 去 它们 。.NET 独 有 的 5(?<-DEPTH>)) 结构， 会 从 堆栈 中 去 掉 最 近 和 的 “successful 
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DEPTH” 标 记 。 如 果 不 存 在 这 样 的 标记 ,'(?<-DEPTH>) | 就 会 报告 失败 ， 整 个 正则 表达 式 的 
匹配 宣告 失败 。 


最 后 的 '(? (DEPTH) (?!) ) 是 一 个 普通 的 条 件 判断 ， 如 果 “DEPTH” 分 组 匹配 成 功 它 会 应 用 
“(?!)J。 如 果 在 程序 运行 到 此 处 时 选择 应 用 此 分 支 , 就 表示 还 存在 未 匹配 的 开 括号 。 果 真如 
此 的 话 ， 我 们 就 需要 退出 匹配 (我们 不 希望 匹配 不 对 称 的 序列 ) 所 以 我 们 用 否定 型 顺序 环 
视 '(?1!) 来 做 检查 ， 确 保 匹 配 失 败 。 


看 到 了 吗 ? 这 就 是 .NET EMAAR MAKES HORE. 


Capture 对 象 


Capture Objects 


NET 的 对 象 模型 中 还 包括 Capture 对 象 ， 之 前 一 直 没 有 介绍 过 。 依 视角 的 不 同 ， 它 可 能 为 
匹配 结果 增加 了 新 的 观察 角度 ， 也 可 能 是 增加 把 结果 和 弄 得 更 糟 。 


Capture 对 象 几乎 等 价 于 Group 对 象 ， 因 为 它 表示 一 组 捕获 型 括号 匹配 的 文本 。 与 Group 
对 象 一 样 ， 它 提供 了 value (匹配 的 文本 )、Length (匹配 文本 的 长 度 )， 以 及 Index (pE 
配 文本 在 目标 字符 串 中 的 偏 移 值 ， 编 号 从 0 开始 ) 。 


Group 对 象 和 Capture 对 象 的 主要 差别 是 , 每 个 Group 对 象 都 包含 了 一 组 captures, 分 别 
对 应 到 匹配 过 程 中 各 分 组 的 未 确定 匹配 (intermediary match), 以 及 该 分 组 最 终 匹 配 的 文本 。 


看 下 面 这 个 例子 : 


Dim M as Match = Regex.Match("abcdefghijk", "“*(..)+") 


正则 表达 式 匹 配 了 5 组 (. .)J， 包 括 了 字符 串 中 的 绝 大 多 数字 符 ‘abcdefghijk’: 因为 加 
号 在 括号 外 面 , 加 号 控制 的 每 次 迭代 都 会 重新 捕获 , 这 个 捕获 型 括号 最 后 保存 的 是 “ij” (也 
就 是 说 ，M.Groups (1) .Value 等 于 “ij')。 相 反 ，M.Groups (1) 同样 包含 一 组 Capture， 
它们 对 应 到 "(. .), 的 匹配 过 程 : 


M.Groups (1) .Captures(0) .Value is ‘ab’ 
M.Groups(1).Captures(1).Value is ‘cd’ 
M.Groups(1).Captures(2).Value is ‘ef’ 
M.Groups(1).Captures(3).Value is ‘gh’ 
M.Groups(1).Captures(4).Value is ‘ij’ 
M.Groups(1).Captures.Count is 5. 
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你 也 许 会 注意 到 ， 最 后 匹配 的 “ij ”等 同 于 最 终 全 局 匹配 中 的 M.Groups (1) .Value。 看 起 
Æ, Group 的 value 就 是 本 分 组 最 终 匹 配 文本 的 简 记 法 。M.Groups (1) .Value #: 


M.Groups (1).Captures( M.Groups(1).Captures.Count - 1 ).Value 
关于 Capture， 还 要 讲 几 点 : 


° M.Groups(1).Capture 是 一 个 capturecollection， 与 普通 的 集合 类 (collection) 
一 样 ， 它 包含 了 Items 和 count 属性 。 不 过 ， 通 常 大 家 都 不 会 使 用 这 两 个 属性 ， 而 是 
通过 索引 值 直 接 访 问 ， 例 如 M.Groups(1).Captures(3) (在 C# 中 是 M.Groups [1] . 


Captures [3] )。 
e Capture 对 象 没 有 success 方法 ， 如 果 需 要 ， 请 测试 Group 的 success, 


° “到 现在 ， 我 们 已 经 看 到 ，capture HR croup 对 象 内 部 可 用 。Match 对 象 也 有 
Captures 属性 ， 尽 管 涌 出 并 不 大 。M.captures 可 以 直接 访问 编号 为 0 的 分 组 的 
Captures 属性 (也 就 是 说 M.captures 等 价 于 M.Groups (0) .Captures)。 因 为 编号 
为 0 的 分 组 表示 整个 匹配 ， 所 以 不 会 有 “遍历 ”匹配 的 和 迭代， 所 以 编号 为 0 的 捕获 集 
合 类 只 有 一 个 capture。 因 为 它们 包含 与 编号 为 0 的 匹配 同样 的 信息 ，M.capters 和 
M.Groups (0) .Captures 并 不 是 很 有 用 。 


-NET 的 Capture 对 象 是 一 种 创新 ， 但 是 因为 与 对 象 模型 “集成 过 度 (overly integrated)”, 
使 用 起 来 反而 更 复杂 ， 而 且 令 人 迷惑 。 在 仔细 参阅 了 .NET 的 文档 ， 并 真正 理解 了 这 些 对 象 
之 后 ， 我 感觉 这 种 做 法 有 利 也 有 册 。 一 方面 ， 我 乐于 看 到 这 种 创新 。 虽 然 它 的 用 法 并 不 会 
马上 显现 出 来 , 但 这 或 许 是 因为 一 直 以 来 我 都 习惯 于 用 传统 的 正则 表达 式 特 性 来 思考 问题 。 


另 一 方面 ， 在 匹配 过 程 中 的 额外 的 分 组 ， 匹 配 完成 之 后 把 它们 封装 到 一 个 对 象 中 ， 似 乎 降 
低 了 效率 ， 我 并 不 希望 降低 效率 ， 除 非 要 得 到 额外 的 信息 。 增 加 的 capture 分 组 在 大 多 数 
匹配 中 不 会 用 到 ， 但 是 照 目前 的 情况 来 看 ， 生 成 Match 对 象 时 会 构建 所 有 的 Group 和 
Capture H&R (以 及 它们 相关 的 GroupCollection ff CaptureCollection 对 象 )。 所 以 无 
论 是 否 需 要 ， 它 们 都 在 那里 ， 如 果 你 能 够 发 现 capture 对 象 的 使 用 价值 RAB wat. 


idl 
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20 世纪 90 年 代 末 期 Web 的 迅猛 发 展 导致 了 PHP 的 爆炸 性 流行 ， 并 一 直 持 续 至 今 。PHP 得 
以 流行 的 理由 之 一 是 ， 即 使 非 专业 人 员 ， 只 需要 稍 作 准 备 ， 就 能 使 用 PHP 的 基本 功能 。 除 
此 之 外 ，PHP 还 提供 了 颇 受 开发 老手 欢迎 的 众多 高 级 特性 和 国 数 。PHP 当然 能 够 支持 正则 
表达 式 ， 而 且 提 供 了 至 少 3 套 独 立 的 ， 不 相关 的 正则 引擎 。 


PHP 的 三 种 正则 引擎 是 “preg”"、“ereg” 和 “mb_ereg”。 本 书 介绍 的 是 preg 引擎 提供 的 函 

数 。 它 使 用 NFA 引擎， i 读 作 
es OVO 

与 之 前 各 章 的 联系 exe, RRL a 

绍 的 基础 知识 。 如 果 读 者 只 对 PHP 










i 道 ， 本 章 的 内 容 强烈 依赖 于 第 1 至 6 章 介 
河 能 会 直接 从 本 章 开 始 阅读 ， 但 我 还 是 希望 他 
MAHERAN (ERER TEA) AWENN: 第 1、2、3 章 介绍 了 与 正则 表达 
式 相关 的 基本 概念 、 特 性 和 技术 ， 第 绰 5) 6 者 介绍 光 些 理解 正则 表达 式 的 关键 知识 ， 
它们 可 以 直接 应 用 到 PHP 的 正则 表达 式 电 ,前 几 间 讲解 的 重要 概念 包括 NFA | ite UCA 


基本 原理 ， 匹 配 优先 特性 、 a ib NTa 


ete K TATAE RRi ， 和 第 3 章 从 第 114 页 到 第 
页 NT ie 正则 表达 式 的 详细 教科 书 。 
ay Wig Mt 
Boe ese ah OS AN 
SEA eee. y 
a oe ax 
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本 章 开始 简要 介绍 了 preg 引擎 的 历史 ， 然 后 介绍 它 的 正则 流派 。 接 下 来 的 几 节 详 细 考 察 了 
preg 函数 的 接口 ， 然 后 是 关于 preg 的 效率 问题 ， 最 后 是 扩展 示例 。 


preg 的 背景 和 历史 preg 这 个 名 字 来 自 接口 函数 名 的 前 组， 代表 “Perl 的 正则 表达 式 (Perl 
Regular Expressions)”, preg 引擎 的 创始 人 是 Andrei Zmievski ， 他 对 当时 作为 标准 的 ereg Æ 
件 的 诸多 香 肘 相当 不 满意 。(ereg 表示 “扩展 的 正则 表达 式 (extended regular expressions)”, 
它 能 兼容 POSIX 标准 ,“ 扩 展 ” 的 意思 是 不 仅仅 限于 一 个 最 简单 的 正则 流派 , 但 是 以 今天 的 
标准 来 看 ， 还 相当 简陋 )。 


Andrei 的 preg 套件 是 一 组 =PCRE ( 即 “Perl 兼容 的 正则 表达 式 ”Perl Compatible Regular 
Expressions) Ham E AAE Wee EF NFA 的 正则 表达 式 库 ， 完 整地 模拟 了 Perl 的 语 
法 和 语意 由 提供 订 _Aadrelt 想 要 的 能 力 . 


在 接触 PCRE( 忆 前 ，Andrei 先 阅 读 了 Perl 的 源 代 码 ， 以 决定 是 否 能 够 借用 到 PHP 当中 。 他 
显然 不 是 第 一 个 阅读 Pen 的 正则 表达 式 源 代码 的 人 ， 也 不 是 第 一 个 认识 到 代码 有 多 么 复杂 
RA. Perl 的 正则 表达 式 功能 强 ， 速 度 快 ， 源 代码 也 在 许多 年 间 经 过 了 许多 人 的 修改 ， 已 经 
超出 了 单个 开发 人 员 的 理解 能 力 。 


幸运 的 是 ， 剑 桥 大 学 的 Philip Hazel 同样 已 经 被 Perl 的 正则 表达 式 的 源 代 码 搞 得 头 昏 脑 胀 ， 
所 以 他 写 了 PCRE È (参见 第 91 页 )。 好 在 Philip 已 经 有 了 现成 的 可 供 模拟 的 语意 ,所 以 若 
干 年 后 ，Andrei 找到 了 这 套 编写 清晰 、 文 档 完备 、 效 率 出 众 的 库 ， 很 方便 就 能 将 其 绑 定 到 
PHP 中 。 


Perl 随 着 时 间 的 流逝 而 不 断 发 展 ，PCRE 也 是 这 样 ，PHP 亦 然 。 本 书 针 对 的 是 PHP Versions 
4.4.3 和 5.1.4， 这 两 者 都 兼容 PCRE Version6.6 ( 注 1)。 


如 果 你 不 熟悉 PHP 的 版 本 信息 ， 清 注意 4x 和 5 是 同时 维护 的 ， 而 5x 进行 了 大 规模 的 扩 
展 。 因 为 两 个 系列 是 分 开 维 护 和 发 布 的 , 很 可 能 某 个 Sx 的 版 本 所 用 的 PCRE 的 版 本 要 低 于 
更 晚 发 布 的 4x 版 本 。 


注 1: 在 写作 本 章 时 ， 我 研究 了 当时 可 用 的 PHP fe PCRE 的 版 本 ,发现 了 一 些 bug, Hit AHH 
对 的 PHP 4.4.3 和 5.1.4 中 已 经 修正 了 这 些 问 题 。 在 早期 的 版 本 中 ， 本 章 的 某 些 例子 可 能 无 
法 正常 工作 。 


Iii 
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PHP ' s Regex Flavor 
表 10-1: PHP preg 的 正则 流派 


F115 (c) 


#7118 (c) 
7119 

7 120 (u) 

7 120 (c) 

7 121 (c) (u) 
#120 


7 129 
#129 
7130 
7133 
w133 


ea 


7 446 





aie 


\a [\b] \e \f \n \r \t \octal\xhex \x{hex} \cchar 


wr, 
+ 


字符 组 : pel [^…] (可 包含 集合 运算 符 了 125) 

几乎 任何 字符 : RB (根据 模式 的 不 同 ， 有 各 种 含义 ) 
Unicode 混合 序列 : \X 

字符 组 缩 略 表示 法 89: \w \d \s \W \D \S( 只 针对 8 位 字符 )” 
Unicode 属性 和 区 块 : \p{Prop} \P{Prop} 

单个 字 节 (可 能 有 危险 ) ©: \c 


行 /字符 事 起 始 位 置 : A \A 

行 /字符 事 结 束 位 置 ": $ \z \Z 

当前 匹配 的 起 始 位 置 : \G 

单词 分 界 符 : \b \B( 只 针对 8 位 字符 ) 

环视 结构 8，(?=…) (21e) (?<=…) (?<!…) 


















REPAR. (hodimo) SHARAR: oni Xd 





7446 模式 修饰 范围 : (?mods-mods:…) 

7 136 注释 : (?#…) (只 在 模式 修饰 符 x 下 有 效 ， 从 “#” 到 换行 符 或 表达 式 末尾 ) 
了 446 捕获 型 括号 : (…) \1 \2… 

F446 命名 捕获 : (?P<name>*…) (?P=name) 

F137 仅 分 组 的 括号 : (?:…) 

F139 固化 分 组 : (?>…) 

7139 多 选 结构 : | 

F475 递归 : (?R) (?num) (?P>name) 

#140 条 件 判 断 : (?ifthenlelse) “if? 部 分 可 以 是 环视 ，(num) 或 (name) 
F141 匹配 优先 量词 : * + ? {n} {n,} {x,y} 

141 忽略 优先 量词 : *? +? ?? {mn}? {n,}? {x,y}? 

F142 占有 优先 量词 : *+ ++ ?+ {nj}+ {n,}+ {Xx,y}+ 

F 136 (c) 文字 ( 非 元 字符 ) 范围 : \Q…\BE 

(c) 一 一 可 用 于 字符 组 内 部 D- OLHA 

(u) Pte 5 RA A u tA 


(本 表 同 样 适用 于 PHP preg 函数 所 使 用 的 正则 表达 式 库 PCRE) 


AANE M I eee eee SS eee 
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前 页 的 表 10-1 简要 介绍 了 preg 引擎 的 正则 流派 。 下 面 是 补充 说 明 : 
@ 只 有 在 字符 组 内 部 ，\b 才 表 示 退 格 符 。 在 其 他 场合 ，\b 匹配 单词 分 界 符 (了 133)。 


十 进 制 转 义 只 能 使 用 两 到 三 位 八 位 数值 。 特 殊 的 一 位 数 \0, 序列 匹 配 空 字 节 (NUL 
byte). 


\xhex 容许 出 现 一 到 两 位 十 六 进 制 数字 , TD '\x {hex}: BAERS TMF. 请 注意 , 大 
于 \x{FF} 的 数值 只 能 与 模式 修饰 符 u 连 用 (了 447)。 如 果 没 有 模式 修饰 符 u, 大 于 \x{FF} 
的 值 会 导致 正则 表达 式 非 法 。 


© 即使 是 在 UTF-8 模式 下 (通过 模式 修饰 符 u), 单词 分 界 符 和 字符 组 简 记 法 ， 例 如 w, 
也 只 对 ASCI 字符 起 作用 。 如 果 需 要 处 理 所 有 的 Unicode 字符 ， 请 使 用 \pD， (7121) 
REE w, Mnp PERE VG, FA '\ pz) t nse 


© Unicode 支持 针对 Unicode Version 4.1.0, 
Unicode 字母 表 (7122) 的 支持 不 需要 任何 “Ts "或 者 “In "前缀 , Plan \p(cyrillichi, 


PHP 同时 支持 单字 母 或 双 字 母 Unicode 属性 ， 例 如 八 p{Lu)、\ptL})， 其 中 改 pLi 作为 
单字 母 属性 名 〈( 字 121) 。 而 不 支持 、\p{Letter} 之 类 的 长 名 称 。 


PHP 也 支持 特殊 的 \p{L&)， (7121), LAR '\ptany), (表示 任意 字符 )。 


© 在 默认 情况 下 ，preg 套件 的 正则 表达 式 是 以 字 节 为 单位 的 ， 所 以 "ci 默认 就 等 价 于 
‘(?s:.)5, As 修饰 的 点 号 。 不 过 ， 如 果 使 用 了 修饰 符 u， 则 preg 套件 就 会 以 UTF-8 
字母 为 单位 ， 也 就 是 说 ,一 个 字符 可 能 由 6 个 字 节 组 成 。 即 使 这 样 ，\cCi 仍然 匹配 单个 
字 节 。 请 参考 第 120 页 的 注意 事项 。 


© 仆 z 和 仆 2 都 能 够 匹配 字符 串 的 末尾 ， 而 仆 z, 同样 能 够 匹配 最 后 的 换行 符 。 


$1 的 意义 取决 于 模式 修饰 符 m 和 DD (7446): 如 果 没 有 设 定 任何 修饰 符 ，$ EF z 

(在 字符 串 结 尾 的 换行 符 ， 或 者 是 字符 串 结尾 )， 如 果 使 用 了 aa， 则 它 能 够 匹配 内 人 嵌 的 
换行 符 ， 如 果 使 用 了 模式 修饰 符 D， 它 能 够 匹配 、\z, (只 有 在 字符 串 的 结尾 )。 如 果 同 
时 设置 了 m 和 D， 则 忽略 D. 
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© 逆序 环视 中 使 用 的 子 表 达 式 只 能 匹配 固定 长 度 的 文本 ， 除 非 顶 层 多 选 分 支 容许 不 同 的 
固定 长 度 (7133), 


D 模式 修饰 符 x (自由 格式 和 注释 ) 只 能 识别 ASCI 的 空白 字符 , 不 能 识别 Unicode 中 的 
空白 字符 。 


Preg 函数 接口 


The Preg Function Interface 


PHP 正则 ?引擎 的 处 理 方式 完全 是 程序 式 的 (795), 包括 表 10-2 顶端 的 6 个 函数 , 表格 还 列 
举 了 4 个 有 用 的 函数 ， 将 在 本 章 后 面 提 到 。 


R 10-2: PHP Preg 函数 概览 


函 数 fis ee ese MRE She ce ee 
#7449 preg_match 测试 正则 表达 式 能 和 否 在 字符 事 中 找到 匹配 ,并 提取 数据 
#7453 preg_match_all 从 字符 事 中 提取 数据 
F458 preg_replace 在 字符 事 的 副本 中 替换 匹配 的 文本 
#463 preg_replace_callback | 对 字符 事 中 的 每 处 匹配 文本 调用 处 理 函 数 
7465 preg_split 将 字符 事 切 分 为 子 事 数 组 
#469 preg_grep 选 出 数组 中 能 /不 能 由 表达 式 匹 配 的 元 素 
7470 preg_quote 转 义 字符 事 中 的 正则 表达 式 元 字符 
kHOAENAAEDRESE AHA oT 查询 Aer TERN 

W SON T I ORN L, JITE es WaS, 
7454 reg_match 类 似 a 但 能 识别 出 为 rr TTT 
7472 preg_regex_to_pattern | 根据 正则 表达 式 字 符 事 生成 preg pattern 字符 囊 
7474 preg_pattern_error 检查 preg pattern 字符 事 的 语法 错误 
F415 preg_regex_error 检查 正则 表达 式 字 符 事 的 语法 错误 


每 个 函数 的 具体 功能 都 取决 于 参数 的 个 数 、 标 志 位 (flag)， 以 及 正则 表达 式 所 使 用 的 模式 
修饰 符 。 在 深入 细节 之 前 我 们 先 通过 几 个 例子 来 看 看 PHP 中 的 正则 表达 式 的 例子 和 处 理 方 
式 。 


/* 测试 HTML tag <table> tag */ 
if (preg match('/^<table\b/i', $tag)) 
print "tag is a table tag\n"; 


/* 测试 文本 是 否 为 整数 */ 
if (preg_match('/*-?\d+$/', Suser_input) ) 
print "user input is an integer\n"; 
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/* 从 字符 事 中 取出 HTML title */ 
if (preg match('{<title>(.*?)</title>}si', $html, Smatches) ) 
print "page title: $matches[(1]\n"; 


-T 


/* 将 字符 事 中 的 数值 作为 华氏 温度 ， 将 其 奉 损 为 摄氏 温度 */ 

$metric = preg_replace('/(-?\d+(?:\.\d+)?)/e’, /* pattern */ 
‘floor (($1-32)*5/9 + 0.5)', /* 替换 代码 */ 
$string); 


/* KER PP RAE OF HB RGR */ 


Svalues_array = preg_split('!\s*,\s*,!', Scomma_separated_values) ; 


最 后 的 程序 ， 如 果 输 入 “Larry, ‘Curly, Moe’, BAZATE: ‘Larry’, ‘curly’ 
Fil ‘Moe’, 


“pattern” $% 


“Pattern” Arguments 


所 有 preg 函数 的 第 一 个 参数 都 是 pattern， 正 则 表达 式 包 含 在 一 对 分 隔 符 之 内 ， 可 能 还 跟 有 
模式 修饰 符 。 在 上 面 的 第 一 个 例子 中 ，pattem 参数 是 “/<table\b/i’'， 也 就 是 包含 在 一 对 
RER (分 隔 符 ) 里 头 的 <table\b;， 然 后 是 模式 修饰 符 1 (不 区 分 大 小 写 的 匹配 ) 。 


PHP 单 引号 字符 串 


因为 正则 表达 式 很 有 可 能 包含 反 斜 线 ,， 所 以 在 以 字符 串 文 字 方式 提供 pattern 参数 时 ,最 好 
使 用 PHP 的 单 引 号 字符 串 。 第 3 章 介绍 了 PHP 的 字符 串 文字 (=103)， 简 单 地 说 ， 如 果 使 
用 单 引 号 字符 串 文 本 ， 正 则 表达 式 就 可 以 省 略 许多 类 外 的 转 义 。PHP 的 单 引号 字符 串 只 有 
两 个 元 序列 ,，“\'” 和 “\\"， 分 别 代 表单 引号 和 反 斜 线 。 


有 一 种 转 义 需要 特别 注意 ， 就 是 在 正则 表达 式 中 使 用 \, 匹配 一 个 反 斜 线 字符 。 在 单 引号 
字符 串 中 , 每 个 \ 都 应 表示 为 \\, 所 以 \\ 就 成 了 \\\\。 四 个 反 斜 线 才能 匹配 一 个 反 斜 线 
字符 ， 这 真神 奇 ! 


(473 页 有 反 斜 线 繁复 到 极端 的 例子 。) 


举 个 具体 的 例子 ， 用 正则 表达 式 匹配 Windows 系统 中 的 分 区 名 ， 例 如 “c:\”。 可 以 用 正则 
表达 式 “[a-z] :\\$:;， 表 示 为 单 引 号 字符 串 文字 就 是 “^[A-Z] :\\\\s'。 
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第 5 章 第 190 页 有 一 个 例子 , ^.*\\ ,作为 pattern 字符 串 时 应 该 写成 “ 改 .*\\\/"， 使 用 3 
RK. BERE, 我 找到 这 几 个 例子 : 

print '/*.*\/'; 输出 /*.*\/ 

print ‘'/*.*\\/'; 输出 /*.*\/ 

print vA WN 输出 /*.*\\/ 

print ‘“/*.*\\\\/'; 输出 /*.*\N/ 
头 两 个 例子 尽管 方式 不 同 ， 结 果 却 是 一 样 的 。 在 第 一 个 例子 中 ， 结 尾 的 “\/”' 对 于 单 引 号 
字符 串 文 字 并 不 是 特殊 文本 ， 所 以 它 就 等 于 字符 串 的 值 。 第 二 个 例子 中 ，“\\” 对 于 字符 申 
文字 来 说 有 特殊 含义 ， 所 以 输出 的 字符 串 中 出 现 单个 “\'。 它 与 后 面 的 字符 (RA) 放 在 
一 起 ， 得 到 与 第 一 个 例子 同样 的 仆 /" 。 同 样 的 道理 ， 第 三 个 和 第 四 个 例子 也 会 得 到 同样 的 
结果 。 


当然 ， 你 也 可 以 使 用 PHP 的 双 引 号 字符 串 文本 ， 但 是 它们 要 麻烦 许多 。 它 们 支持 许多 字符 
串 元 序列 ， 这 些 在 正则 表达 式 字符 串 中 都 必须 特殊 处 理 。 


分 隔 符 


preg 引擎 要 求 正则 表达 式 两 端 必须 有 分 隔 符 , 因为 设计 者 希望 它 看 起 来 更 像 Perl, 尤其 在 模 
式 修饰 符 的 使 用 方法 上 更 是 如 此 。 有 的 程序 员 觉 得 在 正则 表达 式 两 端 添 加 分 隔 符 简直 是 多 
此 一 举 ,但 是 无 论 好 还 是 不 好 ， 规 定 就 是 规定 (第 448 也 给 出 了 一 个 “不 好 ”的 原因 )。 


常见 的 做 法 是 使 用 斜 线 作为 分 隔 符 ， 不 过 我 们 还 可 以 用 除了 字母 、 数 字 、 反 斜 线 和 空白 字 
符 之 外 的 任何 ASCH 字符 做 分 隔 符 。 最 常见 的 是 一 对 斜 线 ， 但 两 个 “!” 和 “#” 也 很 常见 。 
如 果 第 一 个 分 隔 符 表示 “ 开 (opening)”: 

{ {< I 
对 应 的 “ 闭 ” 分 隔 符 就 是 : 

oe > 


如 果 使 用 这 样 “配对 ”的 分 隔 符 ,分 隔 符 就 可 能 风 套 ， 所 以 “((\a+))” 也 可 以 用 作 pattern 
字符 串 。 其 中 ， 外 面 的 括号 是 模式 字符 串 分 隔 符 ， 内 部 的 括号 属于 分 隔 符 之 内 的 正则 表达 
式 。 为 了 清晰 起 见 ， 我 会 避免 这 种 情况 ， 使 用 简单 易 懂 的 “/(\da+)/ "。 
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pattern 字符 串 内 部 可 以 出 现 转 义 的 分 隔 符 ， 所 以 “/<B>(.*?)<\/B>/i” 并 没有 错 ， 不 过 换 
一 组 分 隔 符 可 能 看 得 更 清楚 ， 例 如 “!<B>(.*?)</B>!i” 使 用 “!…! ”作为 分 隔 符 ， 而 
*{<B>(.*?)</B>}i’ 使 用 “{ 


模式 修饰 符 


在 结束 分 隔 符 之 后 可 以 跟随 多 种 模式 修饰 符 〈 用 PHP 的 术语 来 说 ， 叫 做 pattern modifier) , 
在 某 些 情况 下 ， 修 饰 符 也 可 以 出 现在 正则 表达 式 内 部 ， 修 饰 模式 的 某 些 性 质 。 我 们 已 经 在 
一 些 例 子 中 看 到 过 表示 不 区 分 大 小 写 的 模式 修饰 符 +。 下 面 简 要 介绍 模式 修饰 符 : 


修饰 符 Atha BH | 说 上 g REP > aini a TA x 

7110 ETTE 5 

7112 增强 的 行 锚 点 模式 

111 点 号 通 配 模式 

PLL 宽松 排列 和 注释 模式 

| =447 以 UTE-8 读 取 正则 表达 式 和 目标 字符 事 

7447 启用 PCRE“ 额 外 功能 (extra stuff)” 
© | 459 将 replacement 作为 PHP 代码 (只 用 于 preg_replace) 
ees 





7478 启用 PCRE 的 “study” 优 化 尝试 
三 个 很 少 用 到 


4A] RA 和 ?的 匹配 优先 含义 


F447 将 整个 匹配 尝试 锚 定 在 起 始 位 置 (译注 1) 
F447'$) 只 能 匹配 EOS， 而 不 是 EOS 之 前 的 换行 符 
(如 果 使 用 了 模式 修饰 符 m 则 不 会 这 样 ) 


表达 式 内 部 的 模式 修饰 符 在 正则 表达 式 内 部 ， 模 式 修饰 符 可 以 单独 出 现 ， 来 启用 或 停 用 某 
些 特性 (例如 用 '(?i) ,来 启用 不 区 分 大 小 写 的 匹配 ,用 '(?-i) ,来 停 用 了 135)。 此 时 ,它们 
的 作用 范围 持续 到 对 应 的 结束 括号 ， 如 果 不 存在 ， 就 持续 到 正则 表达 式 的 末尾 。 


他 们 也 可 以 用 作 模 式 修饰 范围 (了 135)， 例 如 '(?i:…) ,表示 对 此 括号 内 的 内 容 进 行 不 区 分 
大 小 写 的 匹配 ,'(?-sm:…) ,表示 在 此 范围 内 停 用 s 和 m 模式 。 


正则 表达 式 之 外 ， 结 束 分 隔 符 之 后 的 模式 修饰 符 可 以 以 任何 顺序 组 织 ， 下 例 中 的 “si” 表 
示 同 时 启用 不 区 分 大 小 写 和 点 号 通 配 模式 : 


if (preg_match('{<title>(.*?)</title>}si', $html, $captures)) 


J TRATT E 


译注 1: 不 启动 驱动 过 程 。 
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PHP 特有 的 修饰 符 列表 最 上 端的 4 个 模式 修饰 符 属 于 标准 修饰 符 ， 在 第 3 章 (7110) 已 
经 讨论 过 。 修 饰 符 e 只 能 在 preg_replace 中 使 用 ， 详 细 的 讨论 见 对 应 的 小 节 (7459), 


模式 修饰 符 u 告诉 preg 31%, LA UTF-8 编码 处 理 正则 表达 式 和 目标 字符 串 。 此 模式 修饰 符 
不 会 修改 数据 ， 只 是 更 改正 则 引擎 处 理 数 据 的 方式 。 默 认 (也 就 是 未 使 用 模式 修饰 符 u) 的 
情况 下 ，preg 引擎 认为 接收 的 数据 都 是 8 位 编码 的 (87)。 如 果 用 户 知道 数据 是 UTF-8 编 
码 的 ， 请 使 用 此 修饰 符 ， 否 则 请 不 要 使 用 。 在 UTF-8 编码 中 ， 非 ASCI 字符 以 多 个 字 节 来 
存储 ， 使 用 u 修饰 符 能 够 确保 多 个 字 节 会 被 作为 单个 字符 来 处 理 。 


模式 修饰 符 X 启用 PCRE 的 “额外 功能 (extra stuff)”， 目 前 它 只 有 一 个 效果 : 如 果 出 现 了 
无 法 识别 的 反 斜 线 序列 ， 就 报告 错误 。 例 如 ， 默 认 情 况 下 ，\x 在 PCRE 中 没有 特殊 意义 ， 
RE k (因为 这 不 是 一 个 已 知 的 元 序列 ,所 以 反 斜 线 会 被 忽略 ) 。 如 果 使 用 了 模式 修饰 


TX, PSR “unrecognized character follows \”, 


未 来 版 本 的 PHP 可 能 包含 更 高 版 本 的 PCRE， 其 中 当前 没有 特殊 意义 的 反 斜 线 组 合 可 能 被 
赋予 新 的 意义 ， 所 以 为 了 保持 未 来 的 兼容 性 (以 及 … 般 可 读 性 )， 最 好 是 不 要 转 义 不 需要 的 
字母 ， 除 非 它 们 现在 有 特殊 意义 。 从 这 个 意义 上 说 ， 模 式 修 饰 符 XX 意义 重大 ， 因 为 它 可 以 


模式 修饰 符 S 调用 PCRE 的 “study (研究 )” 特 性 ,预先 分 析 正 则 表达 式 ， 在 某 些 顺利 的 情 
WE, 在 尝试 匹配 时 速度 会 大 大 提升 。 本 章 中 关于 效率 的 内 容 将 对 此 有 介绍 ， 请 参考 第 478 
页 。 


剩 下 的 模式 修饰 符 实用 价值 不 大 ， 也 不 常用 : 


。 ”模式 修饰 符 A 把 匹配 锁定 在 第 一 次 尝试 的 位 置 ， 就 等 于 整个 正则 表达 式 以 、\G, 开 头 。 
如 果 用 第 4 章 的 汽车 的 类 比 ， 这 就 是 关闭 传动 机 构 的 “驱动 过 程 ”( 亚 148)。 


。 ”模式 修饰 符 D 会 把 每 个 SERA z (F112), 即 5 匹配 字符 串 的 末尾 , 而 不 是 字符 
串 之 内 的 换行 符 。 


。 ”模式 修饰 符 U 交换 元 字符 的 匹配 优先 含义 : * 和 “*? 交 换 ， + 和 +?) 交换， 等 等 。 我 
猜 这 个 模式 修饰 符 的 主要 作用 在 于 制造 混乱 ， 所 以 我 完全 不 推荐 使 用 它 。 


til 
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“Unknown Modifier” ##iz 


有 时 候 ， 手 头 程序 忽然 会 报告 “Unknown Modifier” 错 误 。 我 绞 尽 脑汁 希望 找到 问题 
所 在 ， 最 终 忧 然 大 悟 ， 原 来 自己 在 创建 模式 参数 时 忘 了 添加 分 隔 符 。 
例如 ， 我 可 能 希望 这 样 匹配 HTML tag: 

preg_match('<(\w+) ([*>]*)>', $html) 
我 的 本 意 是 ， ` <” 是 正则 表达 式 的 一 部 分 ， 但 preg match 认为 它 是 起 始 分 隔 竺 (我 
自己 忘 了 设 定 分 隔 符 ,这 还 能 怪 谁 呢 ? ) MA, RAR RE ‘<TR> +) >”, 
其 中 的 正则 表达 式 以 灰色 标注 ， 模 式 修饰 符 以 下 画 线 标注 。 


在 正则 表达 式 中 ，(\w+) (MARAR, 但 是 在 发 现 并 报告 错误 之 前 , 正则 引擎 会 试 
图 将 ]*)> 解释 为 一 囊 模式 修饰 待 。 但 它们 全 都 不 是 合法 的 模式 修饰 符 ， 所 以 ， 当 
然 会 报告 错误 。 


Warning: Unknown modifier ']' 


显然 ， 我 需要 使 用 分 隔 符 : 
preg_match('/<(\w+)(.*?)>/', $html) 
除非 我 知道 这 里 的 modifier 指 的 是 PHP 的 pattern 修饰 罕 , 否 则 此 错误 报告 中 给 出 的 修 
饰 符 并 不 能 让 人 明白 ， 所 以 有 时 候 我 得 花 点 时 间 才 能 找到 问题 所 在 。 每 次 遇 到 这 样 的 
问题 ， 我 都 觉得 自己 很 傻 ， 但 幸运 的 是 ， 没 人 知道 我 会 犯 这 种 低级 的 错误 。 
幸好 ，PHP5 最 近 版 本 的 报错 信息 改 成 了 这 样 : 
Warning: preg_match(): Unknown modifier ']， 
因为 出 现 了 函数 名 ， 我 立刻 就 能 反应 过 来 。 不 过 ， 有 时 候 仍 然 需要 花 很 多 时 间 来 查找 
漏 写 分 隅 竺 的 问题 ， 因 为 不 是 每 次 都 会 报错 。 上 比如 下 面 这 段 程序 : 
preg_match('<(\w+) (.*?)>', $html) 
RERE TEOMA, 但 '(\w+) (.*?))1 仍 然 是 合法 的 正则 表达 式 。 唯 一 的 毛病 在 于 它 
不 能 匹配 我 期 望 的 结果 。 这 种 错误 不 易 察觉 ， 非 常 灯 手 。 
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Preg 函数 罗列 


The Preg Functions 


本 节 从 最 基本 的 “这 个 正则 表达 式 能 否 在 字符 串 中 找到 匹配 ”开始 ， 详 细 介绍 各 个 函数 。 


使 用 方法 


preg_match(pattern, subject[, matches[, flags [, offset]]}) 


参数 简介 


pattern ”分 隔 符 包围 起 来 的 正则 表达 式 ， 可 能 出 现 修饰 符 (7444). 

subject ”需要 搜索 的 目标 字符 串 。 

matches ” 非 强制 出 现 ， 用 来 接受 匹配 数据 。 

flags 非 强 制 出 现 ， 此 标志 位 会 影响 整个 函数 的 行为 。 这 里 只 容许 出 现 一 个 标志 位 ， 


PREG_OFFSET_CAPTURE (7452), 


offset  ě 非 强制 出 现 ， 从 0 开始 ， 表 示 匹 配 尝 试 开 始 的 位 置 (7453), 


返回 值 
如 果 找 到 匹配 ， 就 返回 trwe， 否 则 返回 false, 


讲解 
最 简单 的 用 法 是 : 


preg_match ($pattern, $subject) 


如 果 $pattern 在 $subject 中 能 找到 匹配 ， 就 会 返回 tue。 下 面 有 几 个 简单 的 例子 


if (Preg_match(' 八 . (jpe?glpnglgiflbmp)S/i'，Sur1)) { 
/* 图 片 的 URL */ 


if (preg_match('{*https?://}', Suri)) { 
/* URI 是 http 或 https */ 


if (preg_match('/\b MSIE \b/x', $_SERVER['HTTP_USER_AGENT'])) { 
/* 浏览 器 是 IE */ 
} 
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捕获 匹配 数据 


preg_match 的 第 3 个 参数 如 果 出 现 ， 则 会 用 来 保存 匹配 结果 的 信息 。 用 户 可 以 照 自己 的 意 
愿 使 用 任何 变量 ， 不 过 最 常用 的 名 字 是 Smatches。 在 本 书 中 ， 如 果 我 在 特定 的 例子 之 外 提 
到 $matches， 指 的 就 是 “preg_match 接收 的 第 3 FBR’. 


匹配 成 功 之 后 ，preg_match 返回 tue， 并 按 如 下 规则 设置 Smatches: 


Smatches [0] 是 正则 表达 式 匹配 的 所 有 文本 
Smatches [1] 是 第 1 组 桶 获 型 括号 桶 获 的 文本 
Smatches [2]} 是 第 2 组 捕获 型 括号 捕获 的 文本 


sesse 


如 果 使 用 了 命名 分 组 ，$matches 中 也 会 保存 对 应 的 元 素 (下 一 节 有 这 样 的 例子 )。 


第 5 章 中 (191) 曾 出 现 过 这 个 简单 的 例子 : 


/* 输入 完整 路 径 ， 分 离 出 文件 名 */ 
if (preg_match('{ / ([^/}]+} $}x', $WholePath, $matches)}) 
SFileName = $matches[1]; 


最 好 是 在 preg_match 返回 true 的 情况 下 用 $matches (随便 你 怎么 命名 ) 。 如 果 匹 配 不 成 功 ， 
会 返回 false， 或 者 错误 (例如 模式 错误 或 函数 标志 位 设置 错误 )。 有 的 错误 发 生 之 后 ， 
Smatches 是 空 数组 ,但 也 有 时候 它 的 值 不 会 变化 ， 所 以 我 们 不 能 认为 ，Smat ches 不 为 空 
就 表示 匹配 功 。 


下 面 这 个 例子 使 用 了 3 组 捕获 型 括号 ， 


/* 从 URL 中 提取 协议 、 主 机 名 和 问 口 号 */ 
if (preg_match('{*(https?):// ((*/:]+) (?: :(\d+) )? }x', $url, $matches)) 
{ 


Sproto = $matches[1]; 
$host = $matches[2]; 
Sport = $matches[3] ? $matches[3]) : ($proto == “http” ? 80 :443); 


print “Protocol: $proto\n"; 
print "Host : $host\n"; 
print "Port : $port\n"; 

} 


数组 结尾 “未 参与 匹配 ”的 元 素 会 被 忽略 


如 果 一 组 捕获 型 括号 没有 参与 最 终 匹 配 ， 它 会 在 对 应 的 Smatches 中 生成 一 个 空 字符 串 〈 注 
2), 需要 说 明 的 是 , Smatches 末 昆 的 空 字符 串 都 会 被 忽略 。 在 前 面 那 段 程 序 中 , 如 果 "\de)s 
25 TUM, smatches [3] 会 保存 一 个 数值 ， 否 则 ，s$matches [3] 根 本 就 不 会 存在 。 


注 2: 如 果 希 望 用 NULL 取代 空 字符 事 ， 请 参考 第 454 页 的 补充 内 容 。 
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命名 捕获 


如 果 我 们 用 命名 捕获 (7138) 重 写 之 前 的 例子 ， 正 则 表达 式 会 长 一 些 ， 不 过 代码 更 容易 阅 
读 ; 
/* 从 URL 中 提取 协议 、 主 机 名 和 问 口 号 */ 


if (preg_match('{*(?P<proto> https? ) :// 
(?P<host> [(*/:]+ ) 


(?: : (?P<port> \d+ ) )? }x', $url, $matches) ) 
{ 

Sproto = $matches['proto']; 

$host = $matches['host']); 

$port = $matches['port'] ? $matches['port'] : ($proto== "http" ?80 : 443); 
print “Protocol: $proto\n"; 

print "Host ; Shost\n"; 

print “Port : $port\n"; 


} 


命名 捕获 看 起 来 更 清晰 ， 这 样 我 们 不 需要 把 smatches 的 内 容 复制 给 各 个 变量 ， 就 能 直接 使 
用 变量 名 ， 而 不 是 smatches， 例 如 这 样 ， 


/* 从 URL 中 提取 协议 、 主 机 名 和 端口 号 */ 
if (preg_match('{*(?P<proto> https? ):// 
(?P<host> [*/:]+ ) 


(?: : (?P<port> \d+ ) )? }x', $url, $UrlInfo)) 
{ 
if (! $UrlInfo['port']) 
$UrlInfo['port') = ($Urlinfo['proto'] == "http" ? 80 : 443); 
echo "Protocol: ", $UrlInfo['proto']), "\n"; 
echo "Host : 1; SUrlinfof[{'hoat')], "\n"; 
echo "Port : ", $UrlInfo['port'], "\n"; 


} 


如 果 使 用 了 命名 捕获 ， 按 数字 编号 的 捕获 仍然 会 插 和 人 $matches。 例 如 ， 在 匹配 Surl ( 值 为 
‘http://regex.info’) 之 后 ， 之 前 例子 中 的 SurlInfo Wea: 


array 
( 
0 => ‘http://regex.info', 
‘proto' = “REED, 
1 => ‘http’, 
‘host' => ‘regex.info', 
2 => '‘regex.info' 


) 


这 样 的 重复 有 点 浪费 ， 但 这 是 获得 命名 捕获 的 便捷 和 清晰 所 必须 付出 的 代价 。 为 清晰 起 见 ， 
我 不 推荐 同时 使 用 命名 和 数字 编号 来 访问 smatches 的 元 素 ， 当 然 用 Smatches [0] 表 示 全 局 


请 注意 ， 数 组 中 不 包括 编号 为 3 和 名 称 为 “port ”的 入 口 (entry) ， 因 为 这 一 组 捕获 型 括号 
没有 参与 到 最 终 匹 配 中 ， 而 且 处 于 最 后 (因此 会 被 忽略 了 450)。 
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还 要 提 一 点 , 尽管 现在 使 用 例如 (?P<2>…)) 之 类 的 数字 命名 并 不 会 出 错 , 但 这 种 做 法 并 不 
可 取 。PHP4 和 PHPS 在 处 理 非 正常 情况 时 会 有 所 区 别 ， 可 能 不 会 按照 个 人 的 意愿 发 展 ， 所 
以 最 好 还 是 不 要 使 用 数字 来 命名 捕获 分 组 。 


更 多 的 匹配 细节 : PREG_OFFSET_ CAPTURE 


如 果 设 置 了 preg_match 的 第 4 个 参数 flags, MAELA PREG_OFFSET_CAPTURE (这 也 是 
preg_match 目前 能 够 接受 的 唯一 标志 位 )， 则 $matches 的 每 个 元 素 不 再 是 普通 字符 串 ， 而 
是 由 两 个 元 素 构成 的 子 数组 ， 其 中 第 1 个 元 素 是 匹配 的 文本 ， 第 2 个 元 素 是 这 段 文本 在 目 
标 字符 串 中 的 偏 移 值 (如 果 没 有 参与 匹配 ， 则 为 -1)。 


偏 移 值 从 0 开始 ,表示 这 段 文本 相对 目标 字符 串 的 偏 移 值 ,即使 设置 了 第 5 个 参数 Sof fset， 
偏 移 值 的 计算 也 不 会 变化 。 它 们 通常 按照 字 节 来 计数 ， 即 使 使 用 了 模式 修饰 符 u 也 是 如 此 
(7447), 


来 看 个 从 tag 中 提取 HREF 属性 的 例子 。HTML 的 属性 值 两 边 可 能 是 双 引 号 、 单 引号 , 或 者 
干脆 没有 引号 ， 这 样 的 值 在 下 面 这 个 正则 表达 式 的 第 1 组 、 第 2 组 和 第 3 组 捕获 型 括号 中 
被 捕获 : 


preg_match('/href \s*=\s*(?: "([^"]*)" IN' CE*N° J *) AV TL CESNSN\ >]+) }/ix', 
Stag, 
Smatches, 
RPEG_OFFSET_CAPTURE) ; 


如 果 Stag 包含 ， 


<a name=bloglink href='http://regex.info/blog/' rel="nofollow"> 


匹配 成 功 之 后 ，$matches WARE: 


array 
{ 
/* 全 局 匹配 的 数据 */ 
0 => array ( 0 => "“href='http://regex.info/blog/'", 
1 => 17 Fy 
/* 第 1 组 括号 的 匹配 数据 */ 
1 => array { 0 => °* 
1 => -1 ), 
/* 第 2 组 括号 的 匹配 数据 */ 
2 => array { 0 => "http://regex.info/blog/", 
1 => 23 ) 
) 


Smatches[f01{0] 包 含 正则 表达 式 匹 配 的 所 有 文本 ，s$matches [0] [1] 表 示 匹 配 文本 在 目标 
字符 串 中 的 偏 移 值 ， 按 字 节 计数 。 
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为 了 清晰 起 见 ， 另 一 种 获得 $matches [0] [0] 的 办 法 是 : 
substr($tag, $matches[0][1], strlen($matches[0][0])); 


Smatches[1] [1] 是 -1， 表 示 第 1 组 捕获 括号 没有 参与 匹配 。 第 3 组 也 没有 参与 ,但 是 因为 
之 前 提 到 的 理由 (7450), 结尾 未 参与 匹配 的 捕获 括号 匹配 的 文本 不 会 包含 在 smatches H, 


offset 参数 


如 果 preg_match 中 设置 了 offset 参数 ， 引 擎 会 从 目标 字符 串 的 对 应 位 置 开 始 (如 果 offset 
是 负数 ， 则 从 字符 串 的 末尾 开始 倒数 ) 。 默 认 情况 下 ，offset 是 0 (也 就 是 说 ， 从 目标 字符 串 
的 开头 开始 ) 。 


请 注意 ，offset 是 按 字 节 计 数 的 ， 即 使 使 用 了 模式 修饰 符 u 也 是 这 样 。 如 果 设 置 不 正确 (A 
如 从 某 个 多 字 节 字符 的 “内 部 ”开始 ) 会 导致 匹配 失败 。 


即使 offset 不 等 于 0, PHP 也 不 会 把 这 个 位 置 标记 为 ,一 一 字符 串 的 起 始 位 置 , 它 只 表示 正 
则 引擎 开始 尝试 的 位 置 。 不 过 ， 逆 序 环视 倒是 可 以 检查 offset 左边 的 文本 。 








使 用 方法 
preg_match_all(pattern, subject, matches [, flags [, offset ]]) 


参数 简介 


pattern ”分 隔 符 包 围 起 来 的 正则 表达 式 ， 可 能 出 现 修饰 符 (444)。 
subject 需要 检索 的 目标 字符 串 。 
matches ”用 来 保存 匹配 数据 的 变量 (必须 出 现 )。 
flags 非 强制 出 现 ， 标 志 位 设 定 整个 函数 的 功能 : 
PREG_OFFSET_CAPTURE (=456) 
和 /或 任意 : 


PREG_PATTERN_ORDER (7455) 
PREG_SET_ORDER (7456) 


offset 非 强制 出 现 , 从 0 开始 ,表示 目标 字符 串 中 匹配 尝试 开始 的 位 置 (与 preg_match 
的 offset 参数 相等 453)。 


返回 值 
preg_match_all 返回 匹配 的 次 数 。 
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不 包含 任何 内 容 的 匹配 ， 还 是 无 法 匹配 


preg_match 返回 的 Smatches 中 ， 空 字符 事 表 示 对 应 的 括号 没有 篆 与 匹配 (当然 ， 数 
组 末尾 的 空 字符 事 会 被 忽略 )。 因 为 匹配 结果 也 可 能 是 空 字 特 事 , 我 希望 没有 大 与 匹配 
的 括号 捕获 的 文本 是 NULL, 


所 以 ,我 自己 编写 了 一 个 preg_match( 我 称 其 为 reg_match) ,首先 使 用 PREG_OFFSET_ 
CAPTURE 标志 位 来 获得 所 有 括号 内 的 自 表 达 式 匹配 结果 的 详细 信息 ， 然 后 根据 这 些 信 
息 在 Smat ches 中 将 对 应 的 值 设 为 NULL: 


function reg_match(S$regex, $subject, &$matches, Soffset = 0) 
{ 


$result = preg_match(Sregex, $subject, $matches, 
PREG_OFFSET_CAPTURE, Soffset); 


if ($result) { 
$f = create_function('&$xX', '$X = $X[1] < 0 ? NULL : $X[0]; '); 
array_walk($matches, $f); 
} 
return $result; 
} 


reg_match 的 结果 等 于 在 不 指定 任何 标志 位 的 情况 下 调用 preg_match, BA AF, 如 
有 果 某 组 括 号 漫 有 参与 匹配 ,在 preg_match 中 对 应 的 元 素 为 空 字 符 事 ,而 在 reg_macch 
中 变 成 了 NULL, 





讲解 


preg_match_all 类 似 于 preg_match, 只 是 在 找到 第 一 个 匹配 之 后 , 它 会 继续 搜索 字符 申 ， 
找到 其 他 的 匹配 。 每 个 匹配 都 会 创建 一 个 包含 匹配 数据 的 数组 ， 所 以 最 后 matches 变量 就 
是 一 个 二 维 数组 ， 其 中 的 每 个 子 数组 对 应 一 次 匹配 。 

这 里 有 个 简单 的 例子 : 


if (preg_match_all('/<title>/i', $html, $all_matches) > 1) 
print “whoa, document has more than one <title>!\n"; 


preg_match_all 要 求 必 须 出 现 第 3 个 参数 (也 就 是 用 来 收集 所 有 成 功 的 匹配 信息 的 变量 )。 
所 以 ， 这 个 例子 中 虽然 没有 用 到 Sal1l_matches， 但 仍然 必须 设置 这 个 变量 。 


收集 匹配 数据 


preg_match 和 preg_match_all 的 另 一 个 主要 区 别 是 第 3 个 参数 中 的 数据 。preg_match 
进行 至 多 一 次 匹配 ， 所 以 它 把 匹配 的 数据 存储 在 matches 变量 中 。 与 此 不 同 的 是 ，preg_ 


= 
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match_all 能 匹配 许多 次 ， 所 以 它 的 第 3 个 参数 保存 了 多 个 单 次 匹配 的 matches。 为 了 说 
明 这 种 区 别 ， 我 使 用 Sal1_matches 作为 preg_match_all 的 变量 名 ， 而 不 是 Spreg_match 
中 常用 的 Smatches。 


preg_match_all 可 以 以 两 种 方式 在 $a11_matches 中 存放 数据 ， 根 据 下 面 两 个 互 斥 的 第 4 


个 参数 flag; PREG_PATTERN_ORDER 或 是 PREG_SET_ORDER 来 决定 。 


默认 的 排列 方式 是 PREG_PATTERN_ORDER 下 面 有 个 例子 (我 称 其 为 “ 按 分 组 编号 的 
(coliated)” 一 一 稍 后 将 介绍 )。 如 果 设 有 设置 标志 位 ， 这 就 是 默认 的 配 列 方式 : 


Ssubject = " 

Jack A. Smith 

Mary B. Miller"; 

/* 不 设置 flags 就 采用 PREG_PATTERN_ORDER */ 

preg_match_all ('/*(\w+) (\w\.) (\w+)$/m', $subject, $all_matches) ; 


Sall_matches 的 结果 为 


array 
( 
/* Sall_matches[0] 对 应 所 有 的 全 局 匹配 */ 
0 => array ( 0 => "Jack A. Smith", /* 第 1 次 匹配 的 全 部 文本 */ 
1 => "Mary B. Miller" /* 第 2 次 匹配 的 全 部 文本 */ ), 


/* Sall_matches[1] 对 应 第 1 组 捕获 型 括号 匹配 的 信息 */ 
1 => array ( 0 => "Jack", /* 第 1 次 匹配 中 的 第 1 组 捕获 型 括号 */ 
1 => "Mary"  /* 第 2 次 匹配 的 第 1 组 捕获 型 括号 */ ) ， 


/* Sall_matches[2] 对 应 第 2 组 捕获 型 括号 匹配 的 信息 */ 
2 => array ( 0 => "A.", /* 第 1 次 匹配 中 的 第 2 组 捕获 型 括号 */ 
1 => "B." /* 第 2 次 匹配 中 的 第 2 组 捕获 型 括号 */ ), 


/* Sall_matches[3] 对 应 第 3 组 捕获 型 括号 匹配 的 信息 */ 
3 => array ( 0 => "Smith"，/* 第 1 次 匹配 中 的 第 3 组 捕获 型 括号 */ 
1 => "Miller" /* 第 2 次 匹配 中 的 第 3 组 捕获 型 括号 */ ) 
) 

一 共 匹 配 了 两 次 ， 每 次 都 包含 一 个 “全 局 匹配 ”字符 串 ， 以 及 3 个 捕获 型 括号 对 应 的 子 字 
符 串 。 我 称 其 为 “ 按 分 组 编号 的 (collated)” ， 因 为 所 有 的 全 局 匹配 都 存放 在 一 个 数组 里 〈 在 
Sall_matches [0], 每 次 匹配 中 ,第 1 组 括号 配 的 文本 存放 在 另 一 个 数组 Sal1_matches [1] 
中 ， 依 次 类 推 。 


默认 情况 下 ，$all_matches 是 按 分 组 编号 的 ， 但 我 们 可 设置 PREG_SET_ORDER 来 改变 它 。 


iH 
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PREG_SET_ORDER 排列 方式 如 果 设 定 了 PREG_SET_ORDER 标志 位 ， 就 会 采用 “堆肥 
(stacked)” 的 排列 方式 。 它 会 把 第 1 次 匹配 的 所 有 数据 保存 在 $all_matches[0] 中 , 第 2 
次 匹配 的 所 有 数据 保存 在 $a11_matches [1] H, 依次 类 推 。 这 就 是 我 们 检索 字符 串 的 顺序 ， 
把 每 次 成 功 匹 配 的 smatches 放 进 $all_matches 数组 中 。 


下 面 是 之 前 那个 例子 的 PREG_SET_ORDER 的 版 本 : 
Ssubject = " 
Jack A. Smith 
Mary B. Miller"; 


preg_match_all('/*(\w+) (\w\.) (\w+)$/m', $subject, $all_matches, PREG_SET_ORDER) ; 


结果 是 : 
array 
( 
/* Sall_matches[0] 等 价 于 preg_match 的 Smatches */ 
0 => array (0 => "Jack A. Smith", /* 第 1 次 整体 匹配 */ 
1 => "Jack", /* 第 1 次 整体 匹配 的 第 1 个 捕获 型 括号 */ 
2 => °A.", /* 第 1 次 整体 匹配 的 第 2 个 捕获 型 括号 */ 
3 => "Smith" /* 第 1 次 整体 匹配 的 第 3 个 捕获 型 括号 */ ) ， 
‘/* Sall_matches[1] 等 价 于 preg_match 的 Smatches */ 
1 => array (0 => "Mary B. Miller", /* 第 1 次 整体 匹配 */ 
1 => "Mary", /* 第 2 次 整体 匹配 的 第 1 个 捕获 型 括号 */ 
2 => °B.*, /* 第 2 次 整体 匹配 的 第 2 个 捕获 型 括号 */ 
3 => "Miller" /* 第 2 次 整体 匹配 的 第 3 个 捕获 型 括号 */ ) ， 
) 
两 种 排列 方式 的 总 结 如 下 : 











将 各 次 匹配 中 同样 编号 的 分 组 编 在 一 起 
$all_matches([$paren_num] [$match_num) 


将 每 次 匹配 的 数据 集中 保存 
$all_matches [$match_num] [Sparen_num] 









PREG_PATTERN_ORDER 


PREG_SET_ORDER 





preg_match_all 和 PREG_OFFSET_CAPTURE 标志 位 


就 像 preg_match 一 样 ， 也 可 以 在 preg_match_all 中 使 用 PREG_OFFSET_CAPTURE, ik 
$all_matches 的 每 个 未 端 元 素 (leaf element) 成 为 一 个 两 个 元 素 的 数组 (匹配 的 文本 ， 以 
及 按 字 节 计算 的 偏 移 值 )。 也 就 是 说 ，$all_matches 成 为 一 个 数组 的 数组 的 数组 ， 这 可 真 
饶舌 。 如 果 你 希望 同时 使 用 PREG_OFFSET_CAPTURE 和 PREG_SET_ORDER， 请 使 用 逻辑 运算 
符 “or” 来 连接 : 


preg_match_all ($pattern, $subject, $all_matches, 
PREG_OFFSET_CAPTURE | PREG_SET_ORDER) ; 
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如 果 使 用 了 命名 分 组 ，$all_matches 将 会 多 出 命名 元 素 ( 同 preg_match —##7451), ix 


段 程序 : 
$subject = " 
Jack A. Smith 


Mary B. Miller"; 


/* 不 设置 flags HAA PREG_PATTERN_ORDER */ 


preg_match_all('/*(?P<Given>\w+) 


Ssubject, 
$all_matches 的 结果 是 ; 

array 

( 0 => array ( 0 => 
“Given” => array ( 0 => 
1 => array ( 0 => 
"Middle" => array ( 0 => 
2 => array ( 0 => 
"Family" => array ( 0 => 
3 => array ( 0 => 


) 


如 果 使 用 PREG_SET_ORDER: 


Ssubject = " 
Jack A. Smith 
Mary B. Miller"; 


preg_match_all{'/*(?P<Given>\w+) 


Ssubject, 


结果 就 是 : 


array 

( 

(0 
Given 
1 
Middle 
2 
Family 
3 

1 => array (0 

Given 
1 
Middle 
2 
Family 
3 


0 => array 


) 


我 个 人 认为 ， 在 使 用 了 命名 分 组 之 后 ， 


Sall_matches, 


(?P<Middle>\w\.) 


S$all_matches); 


(?P<Family>\w+)$/m', 


"Jack A. Smith", 1 => "Mary B. Miller" ), 
"Jack", 1 => "Mary" ae 
"Jack", 1 => "Mary" Fa 
a Ea 1 => "B," y 
Ri 1 => "B.* ), 
"Smith", 1 => "Miller"), 
"Smith", 1 => *Miller” ) 


(?P<Middle>\w\.) 


Vv 


"Jack A. Smith", 
"Jack", 

"Jack", 

"AS", 

nA 

"Smith", 

"Smith" ), 

"Mary B. Miller", 
“Mary”, 

"Mary", 

"B, i 

"B, r 

"Miller", 
"Miller" ) 


VVVVWVYV 


Vv vv 


Le 
v 


Vv 


(?P<Family>\w+)$/m', 


PREG_SET_ORDER) ; 


就 应 该 去 掉 数字 编号 ， 因 为 这 样 程序 更 清晰 ， 效 率 
更 高 ， 不 过 ， 如 果 它 们 被 保留 了 ， 你 可 以 当 它 们 不 存在 。 
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使 用 方法 
preg_replace(pattern, replacement, subject [, limit [, count ]]) 
参数 简介 
pattern 分 隔 符 包围 起 来 的 正则 表达 式 , 可 能 出 现 修饰 符 。pattern 也 可 能 是 一 个 pattern- 
argument 字符 串 的 数组 。 


replacement replacement 字符 串 ， 如 果 pattern 是 一 个 数组 ， 则 replacement 是 包含 多 个 字符 
串 的 数组 。 如 果 使 用 了 模式 修饰 符 e， 则 字符 串 (或 者 是 数组 中 的 字符 串 ) 会 
被 当 作 PHP 代码 (7459), 


subject 需要 搜索 的 目标 字符 串 。 也 可 能 是 字符 串 数组 ( 按 顺 序 依 次 处 理 )。 
limit 非 强制 出 现 ， 是 一 个 整数 ， 表 示 替 换 发 生 的 上 限 (7460), 
count 非 强制 出 现 ， 用 来 保存 实际 进行 的 替换 次 数 (只 有 PHP5 Hh, 7460), 


返回 值 


如 果 subject 是 单个 字符 串 ， 则 返回 值 也 是 一 个 字符 串 (subject 的 副本 ， 可 能 经 过 修改 )。 
如 果 subject 是 字符 串 数组 ， 返回 值 也 是 数组 (包含 subject 的 副本 ， 可 能 经 过 修改 )。 


讲解 


PHP 提供 了 许多 对 文本 进行 查找 -替换 的 办 法 。 如 果 查 找 部 分 可 以 用 普通 的 字符 串 描 述 ， 
str_replace 或 者 str_ireplace 就 更 合适 ,但 是 如 果 查 找 比 较 复杂 ， 就 应 该 使 用 preg_ 


replace, 


来 看 一 个 简单 的 例子 : 在 Web 开发 中 经 常会 遇 到 这 样 的 任务 ， 把 信用 卡号 或 电话 号 码 输入 
一 张 表 单 。 你 是 否 经 常 看 到 “不 要 输入 空格 和 连 字 符 ” 的 提示 ? 要 求 用 户 按 规 则 输入 数据 ， 
还 是 由 程序 员 做 一 点 小 小 的 改进 ， 让 用 户 可 以 照 自己 的 习惯 输入 数据 ? 哪 种 办 法 更 好 ( 注 
3) ? 毕竟， 这 里 我 们 的 要 求 就 是 “清理 ”这 样 的 输入 数据 ， 

Scard_number = preg_replace('/\D+/', ' ', $card_number) ; 

/* S$card_number 只 包含 数字 ， 或 者 为 空 */ 
其 中 用 preg_replace 来 去 掉 非 数字 字符 。 更 确切 的 说 ， 它 用 preg_replace 来 生成 
scard_number 的 副本 ， 将 其 中 的 非 数 字 字符 替换 为 空 ( 空 字符 串 )， 把 这 个 经 过 修改 的 副 
本 赋值 给 $card_number。 


注 3: 显然 ，Web 开发 中 懒惰 的 程序 员 随 处 可 见 ， 所 以 我 兄弟 所 做 的 “不 要 输入 连 字 社 和 空格 ” 
的 纪念 堂 很 不 幸 地 证 明了 这 一 点 。 参 考 http://www.unixwiz.net/ndos-shame.himl , 
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单字 符 串 ， 单 替换 规则 的 preg_replace 


前 面 三 个 元 素 (pattern, replacement 和 subject) 都 是 既 可 以 为 字符 串 ， 也 可 以 为 字符 串 数 
组 。 通 常 这 三 者 都 是 普通 的 字符 串 ，preg_replace 首先 生成 subject 的 副本 ， 在 其 中 找到 
pattern 的 第 1 次 匹配 ， 将 匹配 的 文本 替换 为 replacement， 然 后 重复 这 一 过 程 ， 直 到 搜索 到 
字符 串 的 末尾 。 


在 replacement 字符 串 中 ,“$0 ”表示 匹配 的 所 有 文本 ， “$1” RRE 1 组 捕获 型 括号 匹配 的 
文本 ,，“$2” 表 示 第 2 组 ， 依 次 类 推 。 请 注意 ， 美 元 符 加 数字 的 字符 序列 并 不 会 引用 变量 ， 
虽然 它们 在 其 他 某 些 语 言 中 有 这 种 功能 ， 但 是 preg_replace 能 识别 简单 的 序列 ， 并 进行 
特殊 处 理 。 你 可 以 使 用 一 对 花 括号 来 包围 数字 ， 比 如 “${0}” 和 “${1}"， 这 样 就 不 会 引起 
RIA. l 


这 个 简单 的 例子 把 HTML 的 bold tag 转换 为 全 部 大 写 : 
$html = preg_replace('/\b[(A-Z]{2,}\b/', '<b>$0</b>', $html); 
如 果 使 用 了 模式 修饰 符 e( 它 只 能 出 现在 preg_replace 中 ) ,replacement 字符 串 会 作为 PHP 


代码 ， 每 次 匹配 时 执行 ， 结 果 作为 replacement 字符 串 。 下 面 这 个 扩展 的 例子 把 bold tag 里 
的 单词 变 为 小 写 : 
Shtml = preg_replace('/\b[A-Z]{2,}\b/e', 


'strtolower ("<b>S0</b>")', 
$html); 


如 果 正 则 表达 式 匹配 的 单词 是 “HEY”, replacement 字符 串 中 的 $0 会 被 替换 为 这 个 值 。 结 果 ， 
replacement 字符 串 就 成 了 “strtolower ("<b>HEY</b>")', 执行 这 段 PHP 代码 , 结果 就 是 


‘<b>hey</b>’, 


如 果 使 用 模式 修饰 符 e, replacement 字符 串 中 的 捕获 引用 会 按照 特殊 的 规定 来 插值 : 插值 
中 的 引号 ( 单 引号 或 双 引 号 ) 会 转 义 。 如 果 不 这 样 处 理 ， 插 和 的 数值 中 的 引号 会 导致 PHP 
代码 出 错 。 


如 果 使 用 模式 修饰 符 e。， 在 replacement 字符 串 中 引用 外 部 变量 ， 最 好 是 在 replacement 字符 
串 文本 中 使 用 单 引 号 ， 这 样 变量 就 不 会 进行 错误 的 插值 。 
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这 个 例子 类 似 于 PHP 内 建 的 htmlspecialchars () PAR: 


Sreplacement = array ( '&' => ‘&amp; ' 
Iet => 2hite 1 
‘sy! => ' &gt; ' 
ns we TEUGE: Jy 
$new_subject = preg_replace('/[&<">]/eS', '$replacement["$0"]', $subject); 


需要 注意 , 这 个 例子 中 的 replacement 使 用 了 单 引 号 字符 串 来 避免 Sreplacement 变量 插值 ， 
直到 将 其 作为 PHP 代码 执行 。 如 果 使 用 双 引 号 字符 串 ， 在 传递 给 preg_replace 之 前 ， 插 
值 就 会 进行 。 


可 以 用 模式 修饰 符 S 用 来 提高 效率 (7478). 


preg_replace 的 第 4 个 参数 用 来 设 定 替换 操作 次 数 的 上 限 (单位 是 单个 字符 串 - 单 个 正则 
表达 式 ， 参 见 下 一 节 )。 默 认 值 是 -1， 表 示 “ 没 有 限制 ”。 


如 果 设 置 了 第 5 个 参数 count (PHP4 没有 提供 ) ， 它 会 用 来 保存 preg_replace 的 实际 替换 
的 次 数 。 如 果 你 希望 知道 是 否 发 生 了 替换 ， 可 以 比较 原来 的 目标 字符 串 和 结果 ， 不 过 检查 
count 参数 效率 更 高 。 


多 字符 串 ， 多 蔡 换 规则 


前 一 节 已 经 提 到 ， 目 标 字符 串通 常 是 普通 字符 串 ， 至 少 我 们 目前 看 到 的 所 有 例子 都 是 如 此 。 
AL, subject 也 可 以 是 一 个 字符 串 数组 ， 这 样 搜索 和 替换 是 对 每 个 字符 串 依 次 进行 的 。 返 
回 值 也 是 由 每 个 字符 串 经 过 搜索 和 替换 之 后 的 数组 。 


无 论 使 用 的 是 字符 串 还 是 字符 串 数组 ，pattern 和 replacement 参数 也 可 以 是 字符 串 数 组 ， 下 
面 是 各 种 组 合 及 其 意义 : 


字符 囊 应 用 pattern， 将 每 次 匹配 的 文本 替换 为 replacement 


数组 轮流 应 用 pattern， 将 每 次 匹配 的 文本 替换 为 replacement 
FHS 轮流 应 用 pattern, 将 每 次 匹配 的 文本 替换 为 对 应 的 replacement 


om TEH 
如 果 subject 参数 是 数组 ， 则 依次 处 理 数组 中 的 每 个 元 素 ， 返 回 值 也 是 字符 串 数 组 。 
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请 注意 limit 参数 是 以 单个 pattern 和 单个 subject 为 单位 的 。 它 不 是 对 所 有 的 pattern 和 subject 
生效 。 返 回 的 $count 则 是 所 有 pattern 和 subject 字符 申 所 进行 操作 次 数 的 总 合 。 


这 里 有 一 个 preg_replace 的 例子 ,其 中 pattern Fl replacement 都 是 数组 。 其 结果 类 似 于 PHP 
内 建 的 htmlspecialchars() 函数 ， 它 保证 处 理 过 的 文本 符合 HTML 规范 : 
$cooked = preg_replace ( 
/* 要 匹配 的 文本 ... */ array('/&/', '/</', zt/', TSF" No 
/* 要 替换 的 文本 . . . */ array('&amp;', ‘&lt;', ‘&gt;', ‘&quot;'), 
/* ... 要 操作 的 目标 字符 事 */ $text 
3 


AT&T --> “baby Bells" 


Scooked 的 值 就 是 : 


AT&amp;T --&gt; &quot;baby Bells&quot; 


当然 也 可 以 预先 准备 好 这 些 数 组 ， 下 面 的 程序 运行 结果 相同 : 


Spatterns = array {'/&/', eft, "Asl" TTF" N 
Sreplacements = array('&amp;', '&lt;', '&gt;', ‘&quot;:'); 


Scooked = preg_replace ($patterns, $replacements, $text); 


preg_replace 能 够 接收 数组 作为 参数 是 很 方便 的 (这 样 程序 员 就 不 需要 使 用 循环 在 各 个 
pattern 和 subject 中 进行 运 代 )， 但 是 它 的 功能 并 没有 增强 。 比 如 ， 各 个 patem 并 不 是 “并 
行 ”处 理 的 。 但 是 ， 相 比 自己 写 PHP 循环 代码 ， 内 建 的 处 理 效率 更 高 ， 而 且 更 容易 阅读 。 


为 了 说 清楚 ， 请 参考 这 个 例子 ， 其 中 所 有 的 参数 都 是 数组 : 


$result _array = preg_replace($regex_array, S$replace array, $subject_array) ; 


它 等 价 于 : 


Sresult_array = array(); 
foreach ($subject_array as $subject) 
{ 
reset (Sregex_array) ; // 准备 遍历 两 个 数组 
reset ($replace_array); // 把 数组 指针 恢复 到 开头 位 置 


while (list(,$regex) = each($regex_array) ) 
{ 
list(,$replacement) = each($replace_array) ; 
// regex 4° replacemnet 已 经 准备 就 绪 ， 应 用 到 subject ... 
$subject = preg_replace($regex, $replacement, $subject); 
} 
// 已 经 处 理 完 所 有 的 regex， 此 subject 处 理 完毕 .. . 
Sresult_array[] = $subject; // .. .附加 到 结果 数组 中 
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数组 参数 的 排序 问题 如 果 pattern 和 replacement 都 是 字符 串 ， 它 们 会 根据 数组 的 内 部 顺序 
配对 ， 这 种 顺序 通常 就 是 它们 添加 到 数组 中 的 先后 顺序 (pattern 数组 中 添加 的 第 1 个 元 素 
对 应 replacement 数组 中 的 第 1 个 元 素 ， 依 次 类 推 )。 也 就 是 说 ， 对 于 array () 创建 的 “ 文 
本 数组 ”来 说 ， 排 序 没有 问题 ， 例 如 : 
Ssubject = “this has 7 words and 31 letters"; 
$result = preg_replace(array('/{a-z]+/', '/\d+/"), 
array (‘word<$0>', ‘num<$0>'), 


$subject); 


print "result: $result\n"; 


i[a-z]+1 对 应 “word<$0>'， 下 面 的 \G+ 对 应 “num<$0>'， 结 果 就 是 


result: word<this> word<has> num7> word<words> word<and> num<31> word<letters> 


相反 ， 如 果 pattern 或 replacement 数组 是 多 次 填充 的 ， 数 组 的 内 部 顺序 可 能 就 不 同 于 keys 
的 顺序 (也 就 是 说 ， 由 keys 表示 的 数字 顺序 ) 。 所 以 前 一 页 的 程序 使 用 数组 模拟 
preg_replacement 的 程序 要 使 用 each 来 按照 数组 的 内 部 上 顺 序 思 历 整个 数组 ， 而 不 关心 它 
们 的 keys 如 何 。 


如 果 pattern 或 replacement 数组 的 内 部 顺序 不 同 于 你 希望 匹配 的 顺序 ， 可 以 使 用 ksort () 
图 数 来 确保 每 个 数组 的 实际 顺序 和 外 表 顺 序 是 相同 的 。 


如 果 pattern 和 replacement 都 是 数组 ， 而 pattern 中 元 素 的 数目 多 于 replacement 中 的 元 素 ， 
则 会 在 replacement 数组 中 产生 对 应 的 空 字符 串 ， 来 进行 配对 。 


pattern 数组 中 的 元 素 顺 序 不 同 ， 结 果 可 能 大 不 相同 ， 因 为 它们 是 按照 数组 中 的 顺序 来 处 理 
的 。 如 果 把 例子 中 的 pattern 数组 的 顺序 颠倒 过 来 (把 replacement 数 组 中 的 顷 序 也 颠倒 过 来 )， 
结果 是 什么 呢 ? 也 就 是 说 ， 下 面 代码 的 结果 是 什么 呢 ? 


$subject = "this has 7 words and 31 letters"; 


$result = preg_replace(array('/\d+/', '/[a-z]+/'}), 
array ('num<\0>', '‘word<\0>'), 
$subject); 


print "result: $result\n"; 


> 请 翻 到 下 页 查看 答案 。 
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使 用 方法 


preg_replace_callback(pattern, callback, subject [, limit [, count ]]) 


参数 简介 

pattern ”分 隔 符 包围 起 来 的 正则 表达 式 ， 可 能 出 现 修饰 符 (444)。 也 可 能 是 字符 串 数组 。 
callback PHP 回调 函数 ， 每 次 匹配 成 功 ， 就 执行 它 ， 生 成 replacement FFR, 

subject ”需要 搜索 的 目标 字符 串 。 也 可 能 是 字符 串 数 组 (依次 处 理 )。 

limit 非 强制 出 现 ， 设 定 替 换 操作 的 上 限 (7460), 

count  ” 非 强制 出 现 ， 用 来 保存 实际 发 生 替换 的 次 数 (只 在 PHP 5.1.0 中 提供 ) 。 

返回 值 

如 果 subject 是 字符 串 ， 返 回 值 就 是 字符 串 (其 实 是 subject 的 一 个 副本 ， 可 能 经 过 了 修改 )。 


如 果 subject 是 字符 串 数组 ， 返 回 值 就 是 数组 (每 个 元 素 都 是 subject 中 对 应 元 素 的 副本 ， 可 
能 发 生 了 修改 )。 


讲解 


preg_replace_callback 类 似 于 preg_replace, RÆ replacement 参数 变 成 了 PHP 回调 
函数 ,而 不 是 字符 串 或 是 字符 串 数组 , 它 有 点 像 使 用 模式 修饰 符 e 的 preg_replace(459)， 
但 是 效率 更 高 (如 果 replacement 部 分 的 代码 很 复杂 ， 这 种 办 法 更 易于 阅读 )。 


请 参考 PHP 文档 获得 更 多 关于 回调 的 知识 ， 不 过 简单 地 说 ，PHP 回调 引用 (以 许多 种 方式 
中 的 一 种 ) 一 个 预先 规定 的 函数 ,以 预先 规定 的 参数 ,返回 预先 规定 的 值 .在 preg_replace_ 
callback 中 ， 每 次 成 功 匹 配 之 后 都 会 进行 这 种 调用 ， 参 数 是 $matches 数组 。 国 数 的 返回 
值 用 作 preg_replace_callback 作为 replacement, 


回调 可 以 以 三 种 方式 引用 函数 。 一 种 是 直接 以 字符 串 形 式 给 出 函数 名 ; 另 一 种 是 用 PHP 内 
建 的 create_function 生成 一 个 匿名 函数 。 稍 后 我 们 会 看 到 使 用 这 两 种 方法 的 例子 。 第 三 
种 方式 本 书 没 有 提 及 ， 它 采用 面向 对 象 的 方式 ， 由 一 个 包含 两 个 元 素 (分 别 是 类 名 和 方法 
名 ) 的 数组 构成 。 


www.TopSage.com 


464 第 10 #. PHP 


测验 答案 


4 462 页 问题 的 答案 
462 页 问题 中 的 程序 运行 结果 如 下 (为 了 适应 排版 ， 进 行 了 折 行 ) : 


result: word<this> word<has> word<num><7> word<words> 
word<and> word<num><31> word<letters> 


如 果 这 两 处 粗 体内 容 出 乎 你 的 意料 ， 原 因 在 于 ,使 用 多 个 正则 表达 式 的 preg_match 


(使 用 pattern 数组 ) 并 不 会 “并 行 ”处 理 这 些 pattern， 而 是 依次 进行 。 
在 这 个 例子 中 ， 第 1 组 pattern/replacement 会 在 subject 中 添加 两 个 num<…> ， 这 两 个 
“num ”会 被 数组 中 的 下 一 个 pattern 匹配 。 然 后 每 个 “num” 变 成 “word<num> ， 最 
终 得 到 这 个 意料 之 外 的 结果 。 
这 个 例子 告诉 我 们 ， 如 果 preg_replace 使 用 了 多 个 pattern， 一 定 要 注意 安排 它们 的 
顺序 。 





下 面 这 个 例子 用 preg_replace_callback 和 辅助 函数 重 写 了 第 460 页 的 程序 。callback 参 
数 是 一 个 字符 串 ， 包 含 辅助 函数 的 名 字 ; 


$sreplacement = array ( '&' => ‘&amp;', 
te! sy 'kit:', 
ty! => ‘égt;', 
' => '&quot;'); 
/* 


* CRAD, Smatches(0] 中 保存 的 是 需要 转 接 为 HTML HFRS, VIHRRRK, K&D 
* HTML 字 桂 事 。 因 为 此 函数 只 在 确保 安全 的 情况 下 调用 ， 此 处 不 考虑 意外 情况 
*/ 
function text2html_callback ($matches) 
{ 
global $replacement; 
return $replacement [$matches[0]]; 
} 


Snew_subject = preg_replace_callback('/[&<«">]/S', /* pattern */ 
"text2html_callback", /* callback */ 
Ssubject); 
如 果 $subject 的 值 是 : 


"AT&T" sounds like "ATNT" 


则 $new_subject 的 值 就 是 : 


&quot ;AT&amp;T&quot; sounds like &quot;ATNT&quot; 


本 例 中 的 text 2html_callback 是 普通 的 PHP mR, FAYE preg_replace_caliback 中 的 
回调 函数 ， 它 的 接收 参数 是 smatches 数组 (当然 ， 这 个 变量 可 以 随意 命名 ， 不 过 我 选择 遵 
循 之 前 使 用 $matches 的 惯例 )。 


It 
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为 完整 起 见 , 下 面 我 给 出 使 用 匿名 函数 的 办 法 (使 用 PHP 内 建 的 create_function 国 数 )。 
这 段 程序 产生 的 Sreplacement 变量 与 上 面 一 样 。 函 数 体 也 相同 ， 只 是 此 时 函数 没有 名 字 ， 
只 能 在 preg_replace_callback 中 使 用 ; 


Snew_subject = preg_replace_callback('/[&<">]/S', 
create_function('$matches', 
‘global $replacement; 
return S$replacement [S$matches[0]];'), 
$subject); 


使 用 callback， 还 是 模式 修饰 符 e 


如 果 处 理 不 复杂 ， 使 用 模式 修饰 符 的 程序 比 preg_replace_callback 更 容易 看 懂 。 但 是 ， 
如 果 效 率 很 重要 , 那么 请 记 住 ， 如 果 使 用 模式 修饰 符 e, 每 次 匹配 成 功 之 后 都 需要 检查 作为 
PHP 代码 的 replacement 参数 。 相 比 之 下 , preg_replace_callback 的 效率 就 要 高 许多 (如 
果 使 用 回调 ，PHP 代码 只 需要 审查 1 次 )。 





使 用 方法 


preg_split (pattern, subject [, limit, [ flags ]]) 


参数 简介 


pattern ”分隔 符 包 围 起 来 的 正则 表达 式 ， 可 能 还 有 修饰 符 ( 了 444)。 
subject ”需要 分 割 的 目标 字符 串 。 
limit = 非 强制 出 现 ， 是 一 个 整数 ， 表 示 切 分 之 后 元 素 的 上 限 。 


flags 。” 非 强制 出 现 ， 此 标志 位 影响 整个 切割 行为 ， 以 下 三 项 可 以 随意 组 合 : 
PREG_SPLIT_NO_EMPTY 
PREG_SPLIT_DELIM_CAPTURE 
PREG_SPLIT_OFFSET_CAPTURE 


它们 的 讲解 从 第 468 页 开始 。 多 个 标志 位 使 用 二 元 运算 符 “ 或 ”来 连接 (与 第 456 


页 一 样 )。 
返回 值 
返回 一 个 字符 串 数组 。 
讲解 


preg_split 会 把 字符 串 的 副本 切 分 为 多 个 片段 , 以 数组 的 形式 返回 。 非 强制 出 现 参数 limit 
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设 定 返 回 数组 中 元 素数 目的 上 限 (如 果 需 要 ， 最 后 的 元 内 包括 “其 他 所 有 字符 ")。 可 以 设 
定 不 同 的 标志 位 来 调整 返回 的 方式 和 内 容 。 


从 某 种 意义 上 来 说 ，preg_split 做 的 是 与 preg_match_all 相反 的 事情 : 它 找 出 目标 字符 
串 中 不 能 由 正则 表达 式 匹 配 的 部 分 。 或 者 更 传统 地 说 ，preg_split 返回 的 是 ， 将 目标 字符 
串 中 正则 表达 式 匹配 的 部 分 删 去 之 后 的 部 分 。preg_split 大 概 相当 于 PHP 中 内 建 的 简单 
explode 函数 ， 不 过 使 用 的 是 正则 表达 式 ， 而 且 功 能 更 强大 。 


来 看 个 简单 的 例子 , 如 果 某 家 金融 网 站 需要 接收 用 空格 分 隔 的 股票 行情 。 可 以 使 用 explode 
拆 分 这 些 行情 数据 : 


Stickers = explode(' ', $input); 


不 过 ， 如 果 输 入 数据 时 不 小 心 输入 了 不 只 一 个 空格 ， 这 个 程序 就 不 能 处 理 了 。 更 好 的 办 法 
是 使 用 preg_split， 用 正则 表达 式 八 s+, 来 切 分 ; 


$tickers = preg_split('/\s+/', $input); 


除了 明确 运用 “用 空格 切 分 ”的 规则 之 外 ， 用 户 也 通常 使 用 逗号 (或 者 是 逗号 加 空格 ) 来 
分 隔 ， 比 如 “YHoo，MSFT，GO0G ` 。 这 些 情况 也 很 容易 处 理 ; 


Stickers = preg_split('/[\s,]+/', $input); 


针对 上 面 的 数据 ，$tickers 得 到 的 是 包含 3 个 元 素 的 数组 :“Y8oo" 、'MSFT” 和 “cooG ' 。 


如 果 输 入 的 数据 是 逗号 分 隔 的 〈 例 如 给 照片 标记 tag 时 使 用 的 “Web 2.0," ) ， 就 需要 用 
'\s*,\s*) KAD: 


Stags = preg_split('/\s*,\s*/', Sinput); 


比较 \s*,\s*, 和 '[\s,]+, 很 能 说 明 问 题 。 前 者 用 逗号 来 切 分 (逗号 必须 出 现 )， 但 也 会 删 
去 逗号 两 边 的 空白 字符 。 如 果 输 入 “123,, ,456” ， 则 能 够 进行 3 次 匹配 (每 次 匹配 一 个 去 
号 )， 返 回 4 个 元 素 :“123" ， 两 个 空 字符 串 ， 最 后 是 “456 "。 


另 一 方面 ，[\s, ] + 会 使 用 任何 逗号 、 连 续 的 逗号 、 空 白字 符 , 或 者 是 空白 字符 和 逗号 的 结 
合 来 切 分 。 FE ‘123,,,456’ H, 它 一 次 就 能 匹配 3 个 逗号 , 返回 两 个 元 素 , “123” 和 ‘456’, 


limit 参数 


limit 参数 用 来 设 定 切 分 之 后 数组 长 度 的 上 限 。 如 果 搜 索 尚 未 进行 到 字符 串 结尾 时 ， 切 分 的 
片段 的 数目 已 经 达到 limit， 则 之 后 的 内 容 会 全 部 保存 到 最 后 的 元 素 当中 。 
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来 看 个 例子 ， 我 们 需要 手工 解析 服务 器 返回 的 HTTP response。 按 照 标准 ，header 和 body 
的 分 隔 是 四 字符 序列 “\r\n\r\n” ,不幸 的 是 ， 有 的 服务 器 使 用 的 却 是 “\n\n'。 幸 好 ， 我 
们 有 preg_split， 很 容易 处 理 这 两 种 情况 。 假 设 整 个 response 保存 在 Sresponse H; 


Sparts = preg_split('/\r? \n \r? \n/x', $response, 2); 


header 保存 在 Sparts[0] 中 ， 而 body 保存 在 Sparts[1] 中 (使 用 模式 修饰 符 S 是 为 了 提高 
BBL 478) 。 


第 3 个 参数 ， 即 limit 的 值 等 于 2, RAN subject 字符 串 最 多 只 能 切 分 成 两 个 部 分 。 如 果 找 到 
了 一 个 匹配 ， 匹 配 之 前 的 部 分 (也 就 是 header) 会 成 为 返回 值 的 第 一 个 元 素 。 因 为 “字符 
申 的 其 他 部 分 ”是 第 2 个 元 素 ， 这 样 就 到 达 了 上 限 ， 它 (我们 知道 是 body) 会 原封 不 动 地 
作为 返回 值 中 的 第 二 个 元 素 。 


如 果 没 有 limit (或 者 limit 等 于 -1， 这 两 种 情况 是 等 价 的 ) preg_split 会 尽 可 能 多 地 切 分 
subject 字符 串 ， 这 样 body 可 能 也 会 被 切 分 为 许多 段 。 设 置 上 限 并 不 能 保证 返回 的 数组 中 包 
含 的 元 素 就 等 于 这 个 数 ， 而 只 是 保证 最 多 包含 这 么 多 元 素 (阅读 关于 PREG_SPLIT_DELIM_ 
CAPTURE 的 小 节 ， 你 会 发 现 甚至 这 种 说 法 也 不 完全 对 )。 


在 两 种 情况 下 ， 应 该 人 为 设置 上 限 。 我 们 已 经 见 过 一 种 情况 : 希望 最 后 的 元 素 包含 “其 他 
所 有 内 容 ”。 在 前 一 个 例子 中 ， 一 旦 第 一 段 (header) 被 切 分 出 来 ， 我 们 就 不 希望 再 对 其 他 
部 分 (body) 进行 切 分 。 所 以 ， 把 上 限 设 为 2 会 保留 body, 


如 果 用 户 知道 自己 不 需要 切割 出 来 所 有 元 素 , 也 可 以 设 定 上 限 , 提高 效率 。 例 如, 如 果 $data 
字符 串 包含 以 \s*, \s*! 分 隔 的 许多 字段 (比如 姓名 、 地 址 、 年 龄 ， 等 等 )， 而 只 需要 前 面 
两 个 ， 就 可 以 把 limit 设置 为 3， 这 样 preg_split 在 切 分 出 前 两 个 字段 之 后 就 不 会 继续 工 
fF: 


S$fields = preg_split('/ \s*, \s*/x', $data, 3); 


这 样 其 他 内 容 都 保存 在 最 后 的 第 3 个 元 素 中 ， 我 们 可 以 用 array_pop 来 删除 ， 或 者 置 之 不 
理 。 


如 果 你 希望 在 没有 设置 上 限 的 情况 下 使 用 任何 preg_split 标志 位 (下 一 节 讨 论 )， 则 必须 
提供 一 个 占 位 符 ， 将 limit 设置 为 -1， 它 表示 “ 设 有 限制 "。 相 反 ， 如 果 limit 等 于 1， 则 表 
示 “ 不 需要 切 分 "， 所 以 它 并 不 常用 。 上 限 等 于 0 或 者 -1 之 外 的 任何 负数 都 没有 定义 ， 所 以 
请 不 要 使 用 它们 。 


Iii 
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flag 参数 


preg_split 中 可 以 使 用 的 3 个 标志 位 都 会 影响 函数 的 功能 。 它 们 可 以 单独 使 用 ， 也 可 以 用 
二 元 运算 符 “or” 连 接 (参见 第 456 页 的 例子 )。 


PREG_SPLIT_OFFSET_CAPTURE 就 像 在 preg_match 和 preg_match_all 中 使 用 prec_ 
OFFSET_CAPTURE 一 样 , 这 个 标志 位 会 修改 结果 数组 ,把 每 个 元 素 变 为 包含 两 个 元 素 的 数组 
(元 素 本 身 和 它 在 字符 串 中 的 偏 移 值 )。 


PREG_SPLIT_NO_EMPTY 这 个 标志 位 告诉 preg_split 忽略 空 字符 串 , 不 把 它们 放 在 返回 数 
组 中 ， 也 不 记 入 limit 的 统计 。 对 目标 字符 串 的 起 始 位 置 、 结 尾 位 置 ， 或 是 空 行 的 匹配 ， 都 
会 带 来 空 字符 串 。 


下 面 来 改进 前 面 的 “Web 2.0” 的 tag 的 例子 (7466), MRsinput 为 “party,, fun’, $ 
Zz: 

Stags = preg_split('/\s*, \s*/x', $input); 
得 到 的 Stags 包含 3 PICK: ‘party’, SEH, Rak ‘fun’, SFHRRESHRK 
匹配 之 间 的 “空白 ”。 
如 果 设 置 了 PREG_SPLIT_NO_EMPTY 标志 位 : 


Stags = preg_split('/\s*, \s*/x', $input, -1, PREG_SPLIT_NO_EMPTY) ; 
ERMA RAE ‘party’ Mi ‘fun’, 


PREG_SPLIT_DELIM_CAPTURE 这 个 标志 位 在 结果 中 包含 匹配 的 文本 ， 以 及 进行 此 次 切 分 的 
正则 表达 式 的 捕获 括号 匹配 的 文本 。 来 看 个 简单 的 例子 , 如 果 字 符 串 中 各 个 字段 是 以 “and” 
和 “or” 来 联系 的 ， 例 如 : 


DLSR camera and Nikon D200 or Canon EOS 30D 
如 果 不 使 用 PREG_SPLIT_DELIM_CAPTURE, 
$parts = preg_split('/\s+ (andlor) \s+ /x', Sinput); 
得 到 的 Sparts Æ: 
array ('DLSR camera’, ‘Nikon D200', ‘Canon EOS 30D') 
分 隔 符 中 的 匹配 内 容 被 去 掉 了 。 不 过 ， 如 果 使 用 了 PRE_SPLIT_DELIM_CAPTURE 标志 位 
(并 且 用 -1 作为 limit 参数 的 占 位 符 ): 


Sparts = preg_split('/\s+ (andlor) \s+ /x', $input, -1, 
PREG_SPLIT_DELIM_CAPTURE) ; 


Sparts 包含 了 捕获 型 括号 匹配 的 分 隔 符 : 


array ('DLSR camera', ‘and', ‘Nikon D200', ‘or', 'Canon EOS 30D') 


itl 
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此 时 ， 每 次 切 分 会 在 结果 数组 中 增加 一 个 元 素 ， 因 为 正则 表达 式 中 只 有 一 组 捕获 型 括号 。 
然后 我 们 就 能 够 遍历 $parts 中 的 元 素 ， 对 找到 的 “anda” 和 “or ”进行 特殊 处 理 。 


请 注意 ， 如 果 使 用 了 非 捕获 型 括号 (如 果 pattern BRA ‘/\s+(?:andlor)\s+/’), 
PREG_SPLIT_DELIM_CAPTURE 标志 位 不 会 产生 任何 效果 ， 因 为 它 只 对 捕获 型 括号 有 效 。 


来 看 另 一 个 例子 ， 第 466 页 分 析 股 市 行情 的 例子 : 


Stickers = preg_split('/[\s,]+/', $input); 


如 果 我 们 添加 捕获 型 括号 ,以 及 PREG_SPLIT_DELIM_CAPTURE 


Stickers = preg_split('/([\s,]+)/', $input, -1, PREG_SPLIT_DELIM_CAPTURE) ; 


结果 $input 中 的 任何 字符 都 设 有 被 抛弃 ， 它 只 是 切 分 之 后 保存 在 Scickers 中 。 处 理 
Stickers 数组 时 , 你 知道 编号 为 奇数 的 元 素 是 '([\s, ]+) 1 匹配 的 。 这 可 能 很 有 用 ,如 果 在 
向 用 户 显 示 错 误 信息 时 ， 可 以 对 不 同 的 部 分 分 别 进行 处 理 ， 然 后 将 它们 合并 起 来 ， 还 原 出 
输入 的 字符 串 。 


还 有 一 点 需要 注意 ， 通 过 PREG_SPLIT_DELIM_CAPTURE 添加 的 元 素 不 会 影响 切 分 上 限 。 只 
有 在 这 种 情况 下 ， 结 果 数 组 中 的 元 素数 目 才 可 能 超过 上 限 (如 果 正 则 表达 式 中 的 捕获 型 括 
号 很 多 ， 则 元 素 就 要 更 多 )。 


结尾 的 未 参与 匹配 的 捕获 型 括号 不 会 影响 结果 数组 。 也 就 是 说 ， 如 果 一 组 捕获 型 括号 没有 
参与 最 终 匹 配 (参见 450 页 ) ， 可 能 会 也 可 能 不 会 在 结果 数组 中 添加 空 字符 串 。 如 果 编 号 更 
靠 后 的 捕获 型 括号 参与 了 最 终 匹 配 ， 就 会 增加 ， 否 则 就 不 会 。 请 注意 ， 如 果 使 用 了 
PREG_SPLIT_NO_EMTPY 标志 位 ， 结 果 会 有 变化 ， 因 为 空 字符 串 上 表 定 会 被 抛弃 。 





使 用 方法 
preg_grep( pattern, input[, flags]) 
参数 简介 
pattern 分 隔 符 包围 起 来 的 正则 表达 式 ， 可 能 出 现 修饰 符 。 
input ”一 个 数组 ， 如 果 它 们 的 值 能 够 匹配 pattermn ， 则 其 值 会 复制 到 返回 的 数组 中 。 
flags 非 强制 出 现 ， 此 标志 位 PREG_GREP_INVERT 或 者 是 0。 
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返回 值 


一 个 数组 ， 包 含 input 中 能 够 由 pattern 匹配 的 元 素 (如 果 使 用 了 PREG_GREP_INVERT 标志 
位 ， 则 包括 不 能 匹配 的 元 素 ) 。 


讲解 

preg_grep 用 来 生成 input 数组 的 副本 ， 其 中 只 保留 了 value 能 够 匹配 (如 果 使 用 了 
PREG_GREP_INVERT 标志 位 ， 则 不 能 匹配 ) pattern 的 元 素 。 此 value 对 应 的 key 会 保留 。 
来 看 个 简单 的 例子 


preg_grep('/\s/', $input); 


它 返回 Sinput 数组 中 的 ， 由 空白 字符 构成 的 元 素 。 相 反 的 例子 是 : 


preg_grep('/\s/', $input, PREG_GREP_INVERT); 


它 返 回 不 包含 空白 字符 的 元 素 。 请 注意 ， 第 二 个 例子 不 同 于 : 


preg_grep('/^\S+$/', $input); 


因为 后 者 不 包括 空 〈 长 度 为 0) 值 元 素 。 


使 用 方法 
preg_quote( input [, delimiter ]) 
参数 简介 


input ”希望 以 文字 方式 用 作 pattern 参数 的 字符 串 (7444). 
delimiter 非 强制 出 现 的 参数 , 包含 1 个 字符 的 字符 串 , 表示 希望 用 在 pattern 参数 中 的 分 隔 


返回 值 


preg_quote 返回 一 个 字符 串 ， 它 是 input 的 副本 ， 其 中 的 正则 表达 式 元 字符 进行 了 转 义 。 
如 果 指 定 了 分 隔 符 ， 则 分 隔 符 本 身 也 会 被 转 义 。 


讲解 
如 果 要 在 正则 表达 式 中 以 文字 方式 使 用 某 个 字符 串 , 可 以 用 内 建 的 preg_quote 函数 来 转 义 


其 中 可 能 产生 的 正则 表达 式 元 字符 。 如 果 指 定 了 创建 pattern 时 使 用 的 分 隔 符 ， 字 符 串 中 的 
分 隔 符 也 会 被 转 义 。 
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preg_quote 是 专门 应 对 特殊 情况 的 函数 ， 在 许多 情况 下 没有 用 ， 不 过 这 里 有 个 例子 ， 


/* MASMailSubject, #/#fSMailMessage 对 应 主题 */ 
$pattern = '/*Subject:\s+(Re:\s*)*' . preg_quote($MailSubject, '/') . '/mi'; 


如 果 $Mailsubject 包含 下 面 的 字符 串 


**Super Deal** (Act Now!) 


最 后 Spattern 就 会 是 


/“^Subject:\s+(Re:\s*)*\*\*Super Deal\*\* \(Act Now\!\) /mi 
这 样 就 可 以 作为 preg 函数 的 pattern 参数 了 。 


如 果 指 定 的 分 隔 符 是 “{” 之 类 对 称 的 字符 ， 那 么 对 应 的 字符 (例如 “}') 不 会 转 义 ， 所 以 
请 务必 使 用 非 对 称 的 分 隔 符 。 


同样 ， 空 白字 符 和 “#” 也 不 会 转 义 ， 所 以 结果 可 能 不 适 于 用 x 修饰 符 。 


这 样 说 来 ， 在 把 任意 文本 转换 为 PHP 正则 表达 式 的 问题 上 ，preg_quote 并 不 是 完善 的 解 
决 办 法 。 它 只 解决 了 “文本 到 正则 表达 式 ” 的 问题 ， 而 没有 解决 “正则 表达 式 到 pattem 参 
数 ” 的 问题 ， 任 何 preg 函数 都 需要 这 一 步 。 下 一 节 给 出 了 解决 办 法 。 


“缺失 ”的 preg way 


“Missing ”Preg Functions 


PHP 内 建 的 preg 函数 已 经 提供 了 繁多 的 功能 ， 但 是 有 时候 我 仍然 发 现 它们 不 够 用 。 一 个 例 
子 是 我 自己 开发 的 preg_match (7454), 


RRA, 另 一 类 需要 提供 自己 的 支持 函数 的 情形 是 , 正则 表达 式 不 是 在 程序 内 部 通过 pattern 
参数 字符 串 提供 的 ， 而 是 来 自 程序 外 部 〈 例 如 ， 从 文件 读 和 人， 或 者 是 在 Web 表单 中 提交 ) 。 
下 一 节 我 们 将 会 看 到 ， 把 纯粹 的 正则 表达 式 字符 申 转换 为 适合 patem 参数 使 用 的 形式 也 很 
复杂 。 


同样 ， 在 使 用 这 些 正则 表达 式 之 前 ， 通 常 都 必须 验证 他 们 的 语法 正确 性 。 我 同样 会 讲解 这 
些 问 题 。 


与 本 书 中 的 所 有 程序 代码 一 样 ， 下 一 页 的 函数 也 可 以 从 我 的 网 站 下 载 : httpy/regex.info/。 


Hl 
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preg_regex_to_pattern 
如 果 正 则 表达 式 包 含 在 字符 串 中 〈 可 能 是 从 配置 文件 读 入 ， 或 者 通过 Web 表单 提交 )， 在 


preg 函数 中 使 用 时 ， 首 先 必须 在 两 端 加 上 分 隔 符 ， 才 能 生成 一 个 preg 函数 能 用 的 pattern 参 
数 。 


问题 所 在 


许多 时 候 ， 把 正则 表达 式 转 换 为 paten 参数 只 不 过 是 在 两 端 加 上 斜 线 而 已 。 这 样 ， 正 则 表 
达 式 字符 串 “[a-z]+” 就 成 了 “/[a-zl+/"， 可 以 用 作 preg KRH pattern 参数 的 字符 串 。 


如 果 正 则 表达 式 中 包含 用 作 分 隔 符 的 字符 ， 情 况 就 很 复杂 。 例 如 ， 正 则 表达 式 是 
“shttp://((*/:]+)", 仅仅 在 两 端 添 加 反 斜 线 得 到 /^http://(1^/:]+)/”, 用 作 pattern 
时 ， 结 果 会 是 “Unknown modifier /” , 


第 448 页 已 经 介绍 过 ， 这 个 错误 信息 是 因为 字符 串 中 的 前 两 个 余 线 字符 被 当 作 分 隔 符 ， 之 
后 的 部 分 (在 这 里 就 是 第 3 个 斜 线 之 后 的 部 分 ) 被 当 作 修饰 符 序列 了 。 


解决 之 道 


有 两 种 办 法 能 解决 内 菊 分 隔 符 的 问题 。 之 一 是 选择 正则 表达 式 中 没有 出 现 的 分 隔 符 ， 如 果 
需要 手工 构造 pattern-modifier 字符 串 ， 那 么 这 当然 是 推荐 的 办 法 了 。 所 以 我 在 第 444、449 
和 450 页 (还 有 许多 ) 的 例子 中 使 用 (…)} 作 为 分 隔 符 。 


要 选 出 正则 表达 式 中 没有 出 现 的 分 隔 符 可 能 并 不 容易 (其 至 不 可 能 )， 因 为 字符 串 中 可 能 包 
含 所 有 分 隔 符 ， 或 者 你 不 能 预先 知道 需要 处 理 的 文本 。 在 实际 应 用 正则 表达 式 时 这 需要 特 
别 关 注 ， 所 以 最 简单 的 办 法 是 使 用 第 二 种 : 选择 一 个 分 隔 符 ， 然 后 对 正则 表达 式 字 符 串 中 
出 现 的 此 分 隔 符 进行 转 义 。 


问题 可 能 比 初 看 起 来 要 困难 许多 ， 因 为 你 必须 关注 某 些 重要 的 细节 。 例 如 ， 在 目标 字符 串 
末尾 的 转 义 必须 进行 特殊 处 理 ， 保 证 它 不 会 转 义 紧 跟 在 后 面 的 分 隔 符 。 


下 面 的 函数 接收 正则 表达 式 字 符 串 ， 以 及 可 能 出 现 的 pattern-modifier 字符 串 ， 返 回 一 个 可 
以 用 于 preg 函数 的 pattern 字符 串 。 代 码 中 难看 的 反 斜 线 (正则 表达 式 和 PHP 子 串 转 义 ) 或 
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许 是 你 见 过 的 最 复杂 的 表示 ， 这 段 代码 并 不 容易 读 懂 (如果 你 希望 补习 PHP 单 引 号 字符 申 
的 语意 ， 请 参考 第 444 页 )。 


/* 
* 输入 字符 事 形式 的 正则 表达 式 (AHA pattern-modifier 字符 事 ) ， 返 回 适合 preg HK 
* 的 字符 事 ， 此 表达 式 包 含 在 分 隔 符 之 内 ， 后 面 可 能 还 跟 有 修饰 罕 
ne 
function preg_regex_to_pattern($raw_regex, $modifiers = "") 
{ 
/* 
* 进行 转换 需要 在 pattern Akk (KRLRAHA) 并 添加 修饰 符 
* 必须 转 义 表达 式 内 部 的 分 隔 待 ， 表 达 式 结尾 的 转 义 必须 特殊 处 理 ， 否 则 它 会 转 义 最 后 的 分 隔 竺 
* 不 能 育 目 转 义 表达 式 内 部 的 分 隔 待 ， 因 为 表达 式 内 部 可 能 包括 已 经 特 义 的 分 隔 替 
例如 ， 如 果 表 达 式 是 '\/'， 痛 目 转 义 得 到 '\\/'， 最 终结 果 是 '/\\//'， 这 显然 不 对 


* 应 当 把 表达 式 分 为 三 类 : 已 转 义 的 字符 、 未 转 义 的 针线 (需要 处 理 ) 和 其 他 字符 。 
* 还 需要 注意 字符 事 结尾 的 转 义 


if (! preg_match('{\\\\(1:/1$)}', Sraw_regex)) /* BMA'\'MEOSH'/' */ 
{ 
/* 不 存在 已 转 义 的 针线 ， 末 尾 也 没有 转 义 ， 直 接 转 义 其 中 的 针线 即 可 */ 
$cooked = preg_replace('!/!', '\/', $raw_regex) ; 
} 
else 
{ 
/* 用 来 解析 Sraw_regex 的 pattern 
* 捕获 型 括号 内 的 两 个 部 分 需要 转 义 */ 
$pattern = '{ [“\\\\/]+ | AAAA TC 7 INAANS ) }sx'; 


/* Sraw-regex 中 Spattern 的 每 次 成 功 匹 配 都 需要 调用 回调 函数 
* 如 果 Smatches [1] 不 为 空 ， 返 回转 义 后 的 结果 
* 否则 不 做 修改 直接 返回 */ 


$f = create_function('Smatches'，， /* 这 个 长 长 的 
if (empty (Smatches [1])) 。 /* 单 引 号 
return $matches[0]; /* PAPRA 
else /* 函数 的 


return "\\\\" . $matches[1]; /* 代码 
5 
/* 将 Spattern 应 用 到 $raw_regex， 得 到 $cooked */ 
$cooked = preg_replace_callback($pattern, $f, $raw_regex); 
} 


/* 现在 可 以 在 Scooked HMRMOMBRT, REMLBRA, RELEW */ 
return "/Scooked/$modifiers"; 
} 


每 次 需要 的 时 候 重 新 写 这 个 函数 太 麻烦 ， 于 是 我 将 它 封 装 到 一 个 函数 中 (我 希望 它 会 成 为 
preg 套件 中 的 内 建 函数 )。 


有 兴趣 的 读者 不 妨 想 想 函 数 尾 部 preg_replace_callback 使 用 的 正则 表达 式 : 它 如 何 工 
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作 ， 以 及 回调 函数 如 何人 遍历 整个 paten FAR, FE MBP MARR, MANE 
的 斜 线 。 


对 未 知 的 Pattern 参数 进行 语法 检查 


Syntax-Checking an Unknown Pattern Argument 


在 正则 表达 式 两 端 添加 分 隔 符 之 后 ， 我 们 确信 它 适 于 用 作 preg ABA pattern 参数 了 ， 但 是 
原来 的 正则 表达 式 还 没有 经 过 语法 正确 性 检验 。 


举例 来 说 ， 如 果 原 始 的 正则 表达 式 是 “* .txt”， 因 为 某 些 人 希望 使 用 文件 群 组 功能 (24) 
而 不 是 正则 表达 式 ， 那 么 preg_regex_to_pattern 返回 的 就 是 /* .txt/。 这 个 正则 表达 式 
当然 不 合法 ， 所 以 程序 会 发 出 警报 (如果 启 用 了 警报 功能 ) : 


Compilation failed: nothing to repeat at offset 0 


PHP 没有 内 建 检测 paten 参数 及 其 正则 表达 式 的 语意 是 否 合法 的 函数 ， 不 过 我 为 读者 提供 
了 一 个 ， 


preg_pattern_error 会 对 pattem 参数 进行 简单 测试 ， 试 图 使 用 此 正则 表达 式 一 一 在 函数 
当中 有 一 行 调用 preg_match, 函数 的 其 他 部 分 使 用 关注 PHP 的 管理 功能 处 理 preg_match 
可 能 显示 的 错误 信息 。 
/* 
* 如 果 输 入 的 pattern 或 其 中 的 正则 表达 式 和 参数 语法 不 正确 ， 输 出 错误 信息 
* 否则 (语法 正确 ) 返回 false。 
*/ 
function preg_pattern_error($pattern) 
{ 
/* 
* 要 判断 Pattern 是 否 有 锚 ， 直 接 党 试 使 用 它 。 
* 检测 和 捕获 此 错误 却 不 容易 ， 尤 其 是 希望 获得 友好 提示 ， 而 且 不 修改 全 局 状态 
* 所 以 加 果 打 开 了 “track_errors ， 则 保存 Sphp_errormsg ， 之 后 恢复 它 的 状态 
* 如 果 没有 打开 ， 则 打开 它 (因为 需要 用 到 )， 完 成 之 后 再 关闭 
*/ 
if (Sold_track = ini get ("track errors")) 
Sold_message = isset($php_errormsg) ? $php_errormsg : false; 
else 
ini_set('track_errors', 1); 


/* RAMU track_errors 已 经 打开 */ 


unset ($php_errormsg) ; 
@ preg_match($pattern, ""); /*#@@M pattern */ 
Sreturn_value = isset($php_errormsg) ? $php_errormsg : false; 


/* 现在 捕获 了 需要 的 内 容 ， 恢 复 全 局 状态 */ 
if ($old_track) 

Sphp_errormsg = isset($old_message) ? $old_message : false; 
else 

ini_set('track_errors', 0); 


return Sreturn_value; 
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对 未 知 正则 表达 式 进行 语法 检查 


Syntax-Checking an Linknown Regex 


这 个 图 数 使 用 刚刚 开 发 的 功能 来 检查 一 个 纯正 则 表达 式 (没有 分 隔 符 也 没有 模式 修饰 符 ) 
的 语法 。 如 果 语 法 不 正确 ， 会 返回 对 应 的 错误 信息 ， 如 果 语 法 正确 ， 返 回 false, 

/* 

* 如 果 表 达 式 语法 错误 ， 返 回 错误 信息 ， 如 果 语 法 正确 返回 false 

*y 

function preg_regex_error ($regex) 

{ 


return preg _pattern_error (preg_regex_to_pattern ($regex) ); 
} 


递归 的 正则 表达 式 


Recursive Expressions 


preg 引擎 所 属 的 流派 的 大 多 数 方面 都 在 第 3 章 中 有 所 介绍 ， 但 是 此 流派 还 提供 了 某 些 新 的 
有 意思 的 功能 用 于 匹配 媒 套 结构 : 递归 的 表达 式 。 


序列 '(?R) 表示 “在 此 处 递归 应 用 整个 表达 式 " M (enum) ,表示 “在 此 处 递归 应 用 num 
所 对 应 编号 的 捕获 型 括号 中 的 序列 "。 命 名 捕获 的 括号 则 使 用 (?P>name) ,表示 法 。 


下 面 几 节 展示 了 常见 的 递归 。 递 归 在 扩展 的 “tagged data” HIF (7481) 中 占有 重要 地 位 。 


匹配 嵌 套 括号 内 的 文本 


Matching Text with Nested Parentheses 


基本 的 递归 的 例子 是 匹配 嵌 套 的 括号 内 的 文本 ， 下 面 是 一 种 办 法 : (?:[^()]++ 


ICORA) ) si。 


这 个 表达 式 匹配 任意 多 个 双 多 选 分支 结 构 。 第 1 个 多 选 分 支 '[^() 1++ 匹配 除 括号 之 外 的 任 
何 字符 。 因 为 外 面 有 (?:…) *!， 这 个 多 选 分 支 要 求 使 用 占有 优先 的 加 号 ， 避 免 “ 无 休止 匹 
Ac” (7226). 


另 一 个 多 选 分 支 \((?R) \) 1 才 是 问题 的 关键 。 它 匹 配 一 对 插 号 , 其 中 可 以 包括 任何 字符 (A 
要 括号 的 嵌 亦 是 格式 正确 的 )。 这 里 的 “之 间 ” 的 部 分 是 整个 正则 表达 式 希 望 匹 配 的 内 容 ， 
也 就 是 我 们 可 以 通过 (?R) ,直接 递归 使 用 整个 正则 表达 式 的 原因 。 
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这 个 表达 式 本 身 可 以 正常 工作 ， 但 如 果 要 添加 任何 字符 ， 请 务必 小 心 ， 因 为 调用 (?R) ,时 
添加 的 任何 字符 同样 会 递归 。 


如 果 使 用 这 个 正则 表达 式 来 校 验 一 个 括号 配对 不 正确 的 字符 串 ， 你 可 能 希望 在 两 端 加 上 
“~…$1 来 确保 “整个 字符 串 ”"。 这 是 不 对 的 ， 因 为 添加 的 行 错 点 会 被 递归 应 用 到 整个 字符 申 
之 中 ， 导 致 匹配 失败 。 


递归 引用 一 组 捕获 型 括号 


OR 1 结构 会 递归 引用 整个 正则 表达 式 ， 但 也 可 以 使 用 '(?num) ,结构 引用 到 其 中 的 子 集 。 
它 递归 引用 编号 为 num” 的 捕获 型 括号 内 的 子 表达 式 ( 注 4)。 如 果 用 '(?num) ,来 思考 ,'(?0)， 
RAF (eR). 


我 们 可 以 使 用 这 种 部 分 递归 因 来 解决 前 面 那 一 节 中 出 现 的 问题 : 在 添加 “…s$ 之 前 , 我 们 用 
一 个 捕获 型 括号 把 正则 表达 式 的 主体 部 分 围 起 来 ,然后 在 以 前 使 用 '(?R) ,的 地 方 使 用 (21). 
添加 捕获 型 括号 是 为 了 让 '(?1) ,能 够 引用 ， 你 或 许 还 记得 ， 这 就 是 上 一 节 匹 配 风 人 套 括号 的 
表达 式 。'^…$, 加 在 这 些 括号 之 外 ， 这 样 我 们 就 不 会 对 它们 进行 递归 调用 : 
ARZA OJIN ((?1)\) ) *) $i 





正则 表达 式 中 下 画 线 的 部 分 是 第 1 组 捕获 型 括号 ， 所 以 每 次 遇 到 (?1) ,都 会 重新 应 用 。 


下 面 PHP 代码 中 的 正则 表达 式 会 报告 stext 中 的 括号 能 否 配对 : 
if (preg_match('/* ( (?: [^()]++ | \( (?1) \) )* ) $/x', Stext)) 
echo "text is balanced\n"; 


else 
echo “text is unbalanced\n"; 


通过 命名 捕获 进行 递归 引用 


如 果 需 要 递归 调用 的 自 表达 式 处 于 命名 捕获 (7138) 中 ， 就 可 以 使 用 (?P>name) ;进行 递 
归 引 用 ， 而 不 是 之 前 的 (num ,表示 法 。 使 用 这 个 表示 法 ， 我 们 的 例子 就 成 了 : 


l'a (?p<stuff> (?: (~^()]++|I\((?P>stuff) \))*)$.) 


注 4: 严格 地 说 ,'(?num) 不 算 递 归 引 用 , 这 是 因为 ,'(?num) 1 结构 本 身 并 不 必然 是 编号 为 num™ 
的 捕获 型 括号 中 的 子 表达 式 的 一 部 分 。 此 时 ， 引 用 可 以 被 看 作 “ 子 程序 调用 。 


i 
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——— eS 


这 个 表达 式 可 能 看 起 来 很 复杂 ， 用 模式 修饰 符 x 可 以 看 得 更 清楚 一 点 : 


$pattern = '{ 
# 正则 表达 式 从 此 处 开始 ... 


(?P<stuff> 
# 这 一 组 括号 内 的 所 有 内 容 都 被 命名 为 "stuff." 


ces 


(*()]++ # PIER DPMS A 
| 
\( (?P>stuff) \) # Hi, RF "stuff, "然后 是 闭 括号 
)* 
) 
$ 
# ERARA 


}x'; # 'x' 是 模式 修饰 村 
if (preg_match(S$pattern, Stext)) 
echo “text is balanced\n"; 
else 
echo “text is unbalanced\n"; 


关于 占有 优先 量词 的 补充 


我 会 对 表达 式 中 的 占有 优先 量词 做 最 后 的 补充 。 如 果 外 部 的 '(?:…) “是 占有 优先 的 ,内 部 
就 不 必 使 用 Olu. 为 了 阻止 这 个 表达 式 进 入 无 休止 匹配 ， 其 中 之 一 (或 者 是 两 者 ) 必 
须 是 占有 优先 的 。 如 果 不 能 使 用 占有 优先 量词 和 固化 分 组 (一 259) ， 则 需要 去 掉 所 有 的 量 


ÀE]? ^O JIRA) D el。 


这 样 会 降低 效率 ， 但 是 至 少 不 会 进入 无 法 终止 的 匹配 。 要 提高 效率 ， 可 以 使 用 第 6 章 介绍 
的 “消除 循环 ”的 技巧 ， 得 到 '[^() ]*(?:\((?R)\) [^] 


不 能 回溯 到 递归 调用 之 内 


No Backtracking Into Recursion 


preg 正则 流派 的 递归 语意 的 重要 特性 之 一 是 ， 它 会 把 递归 结构 匹配 的 所 有 内 容 当 作 固 化 分 
组 括号 匹配 的 内 容 (259)。 也 就 是 说 ， 递 归结 构 不 会 部 分 “交还 (unmatch)” 某 些 已 经 匹 
配 的 内 容 来 实现 全 局 匹配 (而 是 导致 整个 匹配 失败 )。 


这 里 说 的 “部 分 ”是 很 重要 的 ， 因 为 回溯 时 ， 道 归 调 用 匹配 的 所 有 文本 可 以 作为 一 个 整体 
来 交还 。 但 不 容许 回溯 到 递归 调用 之 内 的 某 个 状态 。 
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匹配 一 组 嵌 套 的 括号 


Matching a Set of Nested Parentheses 


上 文 已 经 介绍 过 如 何 匹配 包含 规范 配对 括号 的 行 ， 这 里 我 会 介绍 匹配 对 称 括 号 的 办 法 (其 
中 可 能 包含 更 多 的 嵌 套 括号 ) : \((?:[^()]++1(?R))*\)j。 


这 个 表达 式 的 组 成 部 分 与 之 前 的 一 样 ， 但 是 顺序 安排 咯 有 不 同 。 同 样 ， 如 果 你 希望 把 它 当 
作 大 的 正则 表达 式 的 一 部 分 ， 应 该 把 它 包 括 在 捕获 型 括号 中 ， 并 且 修 改 (?R) ,来 递归 地 引 
用 对 应 的 自 表达 式 ， 例 如 '(?1)， (必须 使 用 这 组 捕获 型 括号 对 应 的 编号 )。 


效率 


PHP Efficiency Issues 


PHP 的 preg 程序 使 用 的 PCRE 是 经 过 优化 的 NFA 正则 引擎 ,所 以 第 4 到 6 章 介绍 的 许多 技 
巧 都 可 以 直接 应 用 。 其 中 包括 对 关键 部 分 进行 性 能 测试 ， 根 据 实 际 数据 而 不 是 从 理论 分 析 
来 比较 程序 的 快慢 。 第 6 章 给 出 了 PHP 的 性 能 测试 的 例子 (7234). 


如 果 程 序 对 时 间 要 求 很 严格 ， 请 记 住 两 点 ， 回 调 函 数 通常 要 比 模式 修饰 符 e 更 快 (7465), 
在 太 长 的 目标 字符 串 中 使 用 命名 捕获 必须 进行 更 多 的 数据 拷贝 。 

程序 运行 中 ， 遇 到 正则 表达 式 会 编译 ， 但 是 PH 有 一 个 容量 高 达 4096 个 正则 表达 式 的 大 
型 缓存 (7242), ， 所 以 实际 上 ， 特 殊 的 patem 字符 串 只 需要 在 第 一 次 遇 到 的 时 候 编译 。 
模式 修饰 符 S 值得 单独 介绍 : 它 会 “研究 (study)” 一 个 正则 表达 式 , 试图 进行 更 快 的 匹配 ( 它 


与 Perl 的 study 函数 不 相关 ，Perl 的 study 函数 研究 的 是 目标 字符 串 ， 而 不 是 正则 表达 式 
F359), 


模式 修饰 符 5: “研究 


The S Pattern Modifier: “Study” 


使 用 模式 修饰 符 S 告诉 正则 引擎 , 在 应 用 这 个 正则 表达 式 之 前 , 花 一 点 时 间 (TE 5) 来 研究 ， 
希望 这 些 多 花 的 时 间 是 值得 的 。 但 是 ， 也 可 能 这 样 做 之 后 也 不 会 提升 速度 ， 但 是 某 些 情 况 
下 ， 速 度 的 提升 是 与 数据 规模 相关 的 。 


现在 有 良好 的 标准 来 判断 哪 种 情况 下 此 功能 具有 价值 : 它 是 第 6 章 所 说 的 开头 字符 组 识别 
优化 (7247) 的 增强 。 


5; 确实 只 是 一 点 时 间 。 对 于 一 般 的 CPU， 非 常 长 非常 复杂 的 正则 表达 式 ， 使 用 模式 修饰 符 8 
只 需要 多 花 百 分 之 一 到 寺 分 之 一 秒 的 时 间 。 
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首先 要 告诉 你 的 是 ， 除 非 你 希望 对 大 规模 的 文本 应 用 某 个 正则 表达 式 ， 否 则 不 太 可 能 节省 
多 少时 间 。 只 有 把 同一 个 表达 式 应 用 到 大 规模 的 文本 ， 或 者 大 量 小 规模 文本 时 ， 才 需要 考 
虑 模式 修饰 符 S, 


不 使 用 模式 修饰 符 S$， 标准 优化 


来 看 个 简单 的 例子 < (\w+),。 从 这 个 表达 式 中 我 们 可 以 看 出 ， 每 次 匹配 必须 以 字符 “< J 
头 。 正 则 引擎 能 够 (preg 套件 必然 会 这 样 做 ) 利用 这 一 点 ， 预 先 在 目标 字符 串 中 搜索 “<”， 
只 在 这 些 位 置 应 用 完整 的 正则 表达 式 (因为 匹配 必须 以 '<, 开头, 在 其 他 位 置 进行 匹配 尝试 
是 徒劳 的 )。 


使 用 简单 预 搜 索 可 以 比 按部就班 应 用 整个 正则 表达 式 快 得 多 ， 原 因 就 在 于 这 种 优化 。 尤 其 
是 ， 需 要 搜索 的 字符 在 目标 字符 串 中 出 现 的 次 数 越 少 ， 优 化 越 明 显 。 同 样 ， 正 则 引擎 判断 
第 一 个 字符 匹配 失败 的 工作 量 越 大 ， 优化 越 明 显 。 这 种 优化 对 [<i>1</i>1<b>|</b>j 比 对 
< (\w+) EHE, 因为 在 进行 下 一 轮 尝试 之 前 , 正则 引擎 会 尝试 搜索 4 个 不 同 的 多 选 分 支 ， 
这 样 可 以 减少 许多 工作 量 。 


使 用 模式 修饰 符 S 进一步 优化 


preg 引擎 足够 聪明 ， 能 把 这 种 优化 应 用 到 大 多 数 正 则 表达 式 ， 它 们 的 匹配 必须 以 某 个 字符 
开头 ， 就 像 上 面 的 例子 一 样 。 不 过 ， 模 式 修饰 符 S 告诉 引擎 ， 对 于 可 能 以 多 个 字符 开头 的 
表达 式 ， 必 须 首先 分 析 正 则 表达 式 来 启用 这 种 优化 。 


这 里 有 几 个 正则 表达 式 的 例子 ， 其 中 有 一 些 在 本 章 中 已 经 出 现 过 ， 使 用 模式 修饰 符 S 的 结 
果 如 下 : 










< & 
Rr 

ADFJMNOS 

RS 

\x09 \x0A \x0C \x0D \x20, 
ee & 

\r \n 


<(\w+) [&(\w+); 
(Rrje: 

(Jan |Feb| += |Dec) \b 
(Re:\s*)? SPAM 
\S*, \s* 
[&<">] 
\r?\n\r?\n 
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模式 修饰 符 S 没有 用 处 的 场合 


想 想 在 哪些 情况 下 模式 修饰 符 S 没有 用 会 很 有 其 法 : 


。 “开头 有 销 点 的 表达 式 (例如 “! 和 bj, 或 者 一 个 销 点 紧 跟 全 局 性 多 选 分 支 。 这 限于 当 
前 的 实现 ，\b; 的 限制 ， 理 论 上 在 未 来 的 某 些 版 本 中 可 以 去 掉 。 


。 能够 匹配 空 字 符 的 表达 式 ， 例 如 \S*。 


。 ”表达 式 可 以 从 任何 字符 开始 匹配 (或 者 是 绝 大 多 数字 符 )， 例 如 (?: [^()]++1\ (1(?R) 
\) )* ,， 请 参考 第 475 页 的 例子 。 这 个 表达 式 能 够 从 除 “) ”之 外 的 任何 字符 开始 匹 
配 ， 世 以 预先 检查 一 遍 几 乎 不 会 去 掉 任 何 开 始 的 位 置 。 


。 ”开头 字符 只 有 一 种 可 能 的 表达 式 ， 因 为 它们 已 经 进行 了 优化 。 
使 用 建议 


使 用 模式 修饰 符 S 之 后 ，preg 引擎 花 在 预 分 析 上 的 时 间 并 不 会 太 长 ， 所 以 如 果 你 希望 对 大 
量 的 文本 应 用 正则 表达 式 ， 无 妨 使 用 它 。 如 果 你 觉得 有 机 会 使 用 ， 潜 在 的 可 能 就 值得 尝试 。 


扩展 示例 


Extended Examples 


用 这 两 个 例子 作为 本 章 的 结束 。 


用 PHP 解析 CSV 


CSV Parsing with PHP 


这 里 有 一 个 用 PHP 解析 CSV (逗号 分 隔 值 ) 的 程序 ， 原 来 的 例子 在 第 6 章 (7271), xi 
正则 表达 式 使 用 了 占有 优先 量词 〈 142) ， 而 不 是 固化 分 组 括号 ， 因 为 它们 看 起 来 更 清晰 。 


首先 ， 这 是 我 们 将 要 使 用 的 正则 表达 式 .: 


Scsv_regex = '{ 
\G(?:%*1,) 
(?: 
# 或 者 是 双 引 号 字段 ... 
" # 起 始 双 引号 
和 
" # 结束 双 引 号 
H... AEA... 
# ... 非 双 引 号 /过 号 文本 . . . 
( 


bee Rak ae 


) 
eee 
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然后 ， 我 们 用 它 来 解析 $csv 文件 中 的 一 行 


/* 应 用 正则 表达 式 ， 填 充 Sall matches */ 
preg_match_all($csv_regex, $line, $all_matches) ; 


/* SResult 用 来 保存 从 Sall_matches KANKRE */ 


SResult = array (); 


/* 遍历 每 个 成 功 的 匹配 ... / 
for ($i = 0; $i < count($all_matches[0]); $i++) 
{ 
/* 如 果 第 2 组 捕获 型 括号 匹配 了 ， 则 直接 使 用 */ 
if (strlen($all_matches[2][$i]) > 0) 
array_push($Result, $all_matches[2}[$i]); 
else 
{ 
/* 否则 为 引用 字段 ， 在 使 用 前 处 理 其 中 内 谋 的 相连 双 引 号 */ 
array_push($Result, preg_replace('/""/', '"', $all_matches[1] [$i])); 
} 
} 


/* 现在 可 以 使 用 SResult 数组 */ 


检查 tagged data KREERTE 


Checking Tagged Data tor Proper Nesting 


这 个 例子 有 点 复杂 ， 它 用 到 了 许多 有 意思 的 知识 : 检查 XML (或 者 是 XHTML ， 或 者 任何 
标记 的 数据 ) 是 否 包 含 孤 立 的 或 者 错误 匹配 的 标签 。 我 的 办 法 是 检查 正确 匹配 的 tag, 非 tag 
文本 ， 以 及 自封 闭 tag (self-closing tag， 例 如 <br/>， 用 XML 的 语言 来 说 就 是 一 个 “ 空 元 
素 tag”)， 希 望 我 能 找到 整个 字符 申 。 


下 面 是 完整 的 正则 表达 式 : 
(A((?:<(\w++) [^>] *+(2<1/)>{(?1)</\2>|1 [*<>] +4+1<\w[*>] *+/>) #4) S$) 
能 够 匹配 的 字符 串 不 会 包含 错误 匹配 的 tag ( 稍 后 会 给 出 若干 告诫 ) 。 


这 可 能 相当 复杂 ， 但 是 如 果 分 解 为 各 个 部 分 ， 就 可 以 掌握 了 。 外 层 的 “(…)$: 包围 表达 式 
的 主体 ， 保 证 在 返回 success 之 前 匹配 整个 目标 字符 种 。 主 体 包含 在 一 组 捕获 型 括号 之 内 ， 
我 们 马上 会 看 到 ， 这 组 括号 容许 在 之 后 递归 引用 “主体 ”。 


正则 表达 式 的 主体 


正则 表达 式 的 主体 ， 就 是 这 三 个 多 选 分 支 (在 正则 表达 式 中 的 下 画 线 标注 ， 以 便 观 察 ) ， 它 
们 包含 在 (?:…)*+ 中， 容许 任意 的 混合 都 能 匹配 。 这 三 个 多 选 分 支 匹 配 的 分 别 是 :tags、 
4E tag 文本 ， 以 及 自封 闭 tag, 


HH 
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因为 每 个 多 选 分 支 能 够 匹配 的 文本 之 间 是 没有 冲突 的 (也 就 是 说 ， 如 果 一 个 多 选 分 支 能 够 
匹配 ， 另 两 个 就 不 能 匹配 )， 我 知道 稍 后 的 回 漳 永 远 不 会 容许 另 一 个 多 选 分 支 匹 配 同 样 的 文 
本 。 利 用 这 一 点 ， 我 们 可 以 使 用 占有 优先 的 星 号 ， 提 高 “容许 任何 混合 ”括号 的 匹配 效率 。 
它 告 诉 正则 引擎 ， 不 要 徒劳 地 回潮 ， 如 果 找 不 到 匹配 ， 就 很 快 出 结果 。 


因为 同样 的 原因 ， 三 个 多 选 分 支 可 以 以 任何 顺序 出 现 ， 我 把 最 可 能 匹配 的 多 选 分 支 放 在 最 
前 面 (7260), 


现在 逐个 看 这 些 多 选 分 支 : 


第 2 个 多 选 分 支 非 tag 文本 我 从 它 开始 讲 ， 因 为 '[^<>]++, 很 简单 。 这 个 多 选 分 支 匹 配 非 
tag 文本 。 在 这 里 使 用 占有 优先 量词 可 能 有 点 多 此 一 举 一 一 外 面 的 '(?:…)*+) ,也 是 占有 优 
先 的 , 但 是 为 了 安全 起 见 , 我 希望 在 我 知道 不 会 带 来 负面 影响 的 地 方 使 用 占有 优先 量词 。( 通 
常 使 用 占有 优先 量词 是 为 了 提高 效率 ， 但 是 它 也 会 改变 匹配 的 语意 。 这 种 修改 可 能 有 帮助 ， 
不 过 你 必须 清楚 它 的 后 果 字 259) 。 


第 3 个 多 选 分 支 自封 闭 tag 第 3 个 多 选 分 支 <\w[^>]*+/>! 匹 配 自封 闭 tag, 例如 <br/> 和 
<img…/> (HHH tag 在 后 面 的 尖 括 号 之 前 有 反 斜 线 ) 。 与 之 前 一 样 ， 占 有 优先 量词 可 能 有 
点 多 余 ， 但 它 肯定 不 会 带 来 负面 影响 。 


第 1 个 多 选 分 支 一 对 匹配 的 tags。 最 后 我 们 来 看 第 1 个 多 选 分 支 :<(\w++) [^>]*+(?<!/)> 


(?1)</\2>, 





这 个 子 表达 式 的 第 一 部 分 (LAP BRE) 匹配 开头 的 tag, A Ow) PRESNE 
表达 式 的 第 2 组 捕获 型 括号 (在 、\w++i 中 使 用 占有 优先 量词 是 很 重要 的 ， 我 们 将 会 看 到 ) 
匹配 tag 名 称 。 


(?<!1/ 六 是 否定 型 逆序 环视 (133), 确保 没有 匹配 斜 线 。 我 们 把 它 放 在 匹配 开头 tag 的 子 
表达 式 中 的 >, 之 前 ， 确 保 没有 匹配 自封 闲 tag， 例 如 <hr/> (我 们 已 经 看 到 ， 自 封闭 的 tag 
由 第 3 个 多 选 分 支 处 理 )。 


在 开头 tag 匹配 之 后 ，(?1)) 会 递归 地 应 用 到 第 一 组 捕获 型 括号 内 的 子 表 达 式 。 它 是 之 前 提 
到 的 “主体 ”, 也 就 是 一 块 只 包含 对 称 tag 的 文本 。 它 匹配 之 后 应 该 匹配 对 应 的 结尾 tag(closing 
tag) ， 就 是 这 个 多 选 分 支 的 第 一 部 分 匹配 的 (tag 的 名 字 捕 获 到 第 二 组 捕获 型 括号 ) '</\2> 
开头 的 </ 确 保 它 是 一 个 结尾 tag, \2>! 中 的 反 向 引用 确保 是 一 个 正确 的 结尾 ag, 
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如 果 是 检查 HTML 或 者 其 他 tag 名 不 区 分 大 小 写 的 数据 ， 请 在 正则 表达 式 之 前 添加 (eid, 
或 者 使 用 模式 修饰 符 i。 

完成 了 1 


占有 优先 量词 


关于 第 1 个 多 选 分 支 <(\w+r+*) [^>j*+(?<!7)>i 中 的 人 w+*+i 的 占有 优先 ， 我 希望 多 说 几 句 。 
如 果 流 派 的 功能 不 够 强大 ， 不 能 使 用 占有 优先 量词 或 者 固化 分 组 (139)， 我 会 在 这 个 多 
选 分 支 的 (\w+) 之 后 加 上 \b: < (\w+) \b[*>] * (2<!/) 21, 


\b 很 重要 ， 它 能 够 停止 (\w+ ) 的 匹配 ， 例 如 ,，“<1link>…</1i>” 中 第 一 个 “1i” 的 匹配 。 
这 样 会 将 “nk ”单独 留 在 捕获 型 括号 外 面 ， 导 致 后 面 的 反 向 引用 疏 2, 引 用 的 tag 名 不 完整 。 


正常 情况 下 这 些 都 不 会 发 生 ， 因 为 \w+ 是 匹配 优先 的 ， 会 匹配 整个 tag 名 。 不 过 ， 如 果 正 则 
AAR AARES ORE WAH, 它 应 该 匹配 失败 ， 搜 索 中 的 回溯 会 强迫 Nw 匹配 不 
完整 的 tag 名 ， 例 如 “<1link>…</1i>'"。 八 bi 能 解决 这 个 问题 。 


谢 天 谢 地 ，PHP 的 强大 的 preg 引擎 支持 占有 优先 量词 ， 使 用 (\w++) 与 附加 、\b, 的 意义 一 
样 : 不 容许 回溯 切割 tag 名 ， 但 是 效率 更 高 。 


真实 世界 的 XML 
真实 世界 的 XML 比 简单 的 匹配 tag 要 复杂 得 多 。 我 们 还 必须 考虑 XML 注释 .CDATA 部 分 、 
处 理 指令 和 其 他 。 


添加 对 XML 注释 的 支持 是 很 容易 的 ， 只 需要 增加 第 4 个 多 选 分 支 ，<!--.*?-->!， 请 务必 
使 用 (?s) ,或 者 是 模式 修饰 符 S， 这 样 点 号 能 够 匹配 换行 符 。 


同样 ，CDATA 部 分 的 格式 是 <! [cDATA[…]]>， 可 以 用 另 一 个 多 选 分 支 '<!\ [CDATA\ 
[.*?]] >, 来 处 理 ，'<?xml*version="1.0"?>” 之 类 的 处 理 指令 需要 再 添加 一 个 多 选 分 支 ; 


[<\? .wm?N?>j。 


entity 声明 的 形式 是 <!ENTITY…>， 可 以 用 '<!ENTITY\b.*?>, 来 处 理 。XML 中 有 许多 类 位 
的 结构 ， 他 们 中 的 大 部 分 可 以 用 '<! [A-2] .*?>; 取 代 '<!ENTITY\b.*?>) 来 处 理 。 
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虽然 还 有 些 问 题 ， 不 过 上 面 的 办 法 应 该 能 够 应 付 绝 大 多 数 XML。 下 面 是 完整 的 PHP 代码 ; 


Sxml_regex = '{ 

(?: <(\wee) [*>]*+ (?<!/)> (?1) </\2> # 匹配 一 组 七 ag 
| [^<>]++ # 非 tag 字符 
| <\w[*>] *+/> # 自封 闭 tag 
| <!--.*?--> # 注视 
1 <!\[CDATA\[.*?]]> # cdata 数据 
| <\?.*?\?> # 处 理 指令 
| <![A-Z].*?> # Entity 上 声明 之 类 

}*+ 

) $ 
}sx'; 


if (preg_match($xml_regex, $xml_string) ) 
echo "block structure seems valid\n"; 
else 
echo "block structure seems invalid\n"; 


HTML 


常见 的 情况 是 ， 真 实 世界 的 HTML 有 各 种 各 样 的 问题 ， 这 样 的 检测 几乎 没有 实用 价值 ， 例 
如 孤立 元 素 或 者 失 配 的 tag， 以 及 独立 出 现 的 “<” 和 “>” 字符。 不 过 ， 即 使 是 正确 配对 的 
HTML 也 有 些 特 殊 情 况 我 们 必须 处 理 ， 注 释 和 <script> tag。 


HTML 注释 规范 与 XML 注释 一 样 : <!--.*?-->!I， 使 用 模式 修饰 符 s。 


<script> 部 分 是 重要 的 ,因为 它 可 能 包含 <" 和 “>”, 所 以 必须 容许 <script…> 和 </script> 
之 间 出 现任 何 字 符 。 我 们 可 以 这 样 处 理 : '<script \b[^>]*> .*? </script>l。 有 趣 的 是 ， 
不 包含 禁止 出 现 的 “<” 和 “> ”的 字符 的 script 序列 会 被 第 1 个 多 选 分 支 捕获 ， 因 为 它 走 的 
也 是 “匹配 的 一 组 tag” 的 套路 。 如 果 <script> 不 包含 任何 其 他 字符 ， 第 1 个 多 选 分 支 会 失 
败 ， 这 些 文本 留 给 新 增 的 多 选 分 支 。 


这 里 是 HTML 版 本 的 PHP 程序 : 


Shtml_regex = '{ 


(2: <(\w++) [*>]*+ (?<!/)> (21) </\2> # 匹配 一 对 tag 
|} [*<>) ++ # tag 文本 
| <\w[*>] *+/> # 自封 用 上 ag 
| <!--,*?--> # 注释 
| <script\b[^>]*>.*?</script> # script 内 容 
) *+ 

)$ 

}isx'; 


if (preg_match($html_regex, $html_string) ) 
echo "block structure seems valid\n"; 


else 
echo "block structure seems invalid\n"; 


1 i 
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set operations 125-127 
subtraction 406 
subtraction (set) 126 
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character-class subtraction .NET 406 
CharBuffer 373, 376, 387 
charnames pragma 290 
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CheckNaughtiness 358 
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257-259, 332, 361 
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clock clicks 239 
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378-379, 381-384, 389 
.NET 219 
{code point 
beyond U+rrrr 109 
introduced 107 
| multiple 108 
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double-quoted string example 
allowing escaped quotes 196 
egrep 24 
final regex 264 
makudonarudo 165, 169, 228-232, 264 
sobering example 222-228 
unrolled 262, 268 

double-word finder example 81 
description 1 
egrep 22 
Emacs 101 
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\E 290 
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flavor overview 92 
flavor summary 32 
history 86-87 
introduced 6-8 
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| introduced 22 
term defined 27 
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ing 168-169 
NFA (see backtracking) 
eval 319 
example 
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| 330, 340-341, 346 
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CSV parsing 
Java 217, 401 
.NET 435 
Perl 213-219 
PHP 480 
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email address 70-73, 98 
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hostname 22, 73, 76, 98-99, 137-138, 
203, 260, 267-268, 304, 306, 
450-451 
egrep 25 
Java 209 
plucking from text 71-73, 206-208 
in URL 74-77 
validating 203-205 
VB.NET 204 
HREF 452 
HTML 443-444, 459, 461, 464, 481, 484 
conversion from text 67-77 
cooking 68, 414 
encoding 414 
<HR> 194 
link 201-203 ` 
optional 140 
paired tags 165 
parsing 132, 315, 321, 399 
tag 9, 18-19, 26, 200-201, 326, 357 
URL 74-77, 203, 206-208, 303, 
450-451 
URL-encoding 320 
HTTP response 467 
image tags 397 
IP 5, 187-189, 267-268, 311, 314, 
348-349 
Jeffs 61-64 
lookahead 61-64 
mail processing 53-59 
makudonarudo 165, 169, 228-232, 264 
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egrep 25 
Java 209 
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username 73, 76, 98 
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IOException 81 
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short-circuiting 250 
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expose literal text 255 
| expression 
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forcing 241, 333, 335, 340-341 

FF 109, 370 

file globs 4 
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Ifind method 375 
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flavor 
| Perl 286-293 
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! general 92 
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.NET 407 
| PCRE 441 
Perl 285, 287 
PHP 441 
POSIX 88 
| term defined 27 
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floating regex cache (see regex objects) 
\floating ‘string’ 362 
| floating-point number example 194 
|forcing failure 241, 333, 335, 340-341 
| foreach vs. while vs. if 320 
‘form letter example 50-51 
| \p{Format } 123 
|freeflowing regex 277-281 
| Eriedt Alfred 176 
Friedl, brothers 33 
Friedl, Fumie v, xxiv 
| birthday 11-12 
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Friedl, Stephen xxiv, 458 
‘fully qualified name 295 
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.NET 408 
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GetGroupNumbere 427-428 
js 234 
(Gill, Stuart xxiv 
global match (see /g) 
global vs. private Perl variables 295 
globs filename 4 
'GNU awk 
|  after-match data 138 
| gensub 182 
| version covered 91 
| word boundaries 134 
|GNU egrep 
| after-match data 138 
|  backreference support 150 
doubled-word solution 22 
-i bug 21 
regex implementation 183 
word boundaries 134 
GNU Emacs (see Emacs) 
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shortest-leftmost match 182 
version covered 91 
GNU sed 
after-match data 138 
version covered 91 
word boundaries 134 
Gosling, James 89 
laros 362 
| Greant, Zak xxiv 
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| alternation 174-175 
' and backtracking 162-177 
| deference to an overall match 153, 274 
| essence 159, 168-169 
| favors match 167-168 
| first come, first served 153 
global vs. local 182 
introduced 151 
vs. lazy 169, 256-257 
localizing 225-226 
quantifier 141 
swapping 447 
too greedy 152 
green dragon 180 - 
grep Perl 324 
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as an acronym 85 
flavor overview 92 
history 86 
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grep (contd) 

-y option 86 
group method 377 
Group Object (.NET) 418 

Capture 437 

creating 429 

Index 430 
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Success 430 
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using 430 

Value 430 
GroupCollection 429, 438 
groupCount method 377 
grouping and capturing 20-22 
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GroupNumberFromName 427-428 
Groups Match object method 429 
\p{Gujarati) 122 
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|hand tweaking 
alternation 261 
caveats 253 
\p{Hangul_Jamo} 124 
hasAnchoringBounds method 388 
HASH (0x80f60ac) 257 
hasTransparentBounds method 387 
Hazel, Philip xxiv, 91, 440 
\p{Hebrew} 122, 124 
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Hz 109 
hex escape 117-118 
Perl 286 
highlighting with ANSI escape sequences 
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history 
Ar 87 
AT&T Bell Labs 86 
awk 87 
Berkeley 86 
ed trivia 86 
egrep 86-87 
grep 86 
lex 87 
Perl 88-90, 308 
PHP 440 
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137-138, 203, 260, 267-268, 304, 306, 
450-451 
egrep 25 
Java 209 
plucking from text 71-73, 206-208 
in URL 74-77 
validating 203-205 
VB.NET 204 
$HostnameRegex 76, 137, 303, 351 
hot VM 236 
HREF example 452 
HTML 
cooking 68, 414 
matching tag 200-201 
HTML example 443-444, 459, 461, 464, 
481, 484 
conversion from text 67-77 
cooking 68, 414 
encoding 414 
<HR> 194 
link 201-203 
optional 140 
paired tags 165 
parsing 132, 315, 321, 399 
tag 9, 18-19, 26, 200-201, 326, 357 
URL 74-77, 203, 206-208, 303, 450-451 
URL-encoding 320 
htmlspecialchars 461 
HTTP newlines 115 
HTTP response example 467 
HTTP URL example 25, 74-77, 201-204, 
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hyphen in character class 9 
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Java (cont'd) 

regex flavor 366-370 

region 384-389 

search and replace 378-383 
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split 395-396 
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transparent bounds 387 
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URL example 209 
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version history 365, 368-369, 392, 401 
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lazy (cont'd) 
favors match 167-168 
vs. greedy 169, 256-257 
optimization 248, 257 
quantifier 141 
lazy evaluation 181, 355 
\L \E 290 
inhibiting 292 
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lefirst 290 
leftmost match 177-179 
Length 

Group object method 430 

Match object method 429 
length-cognizance optimization 245, 247 
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lexer 132, 389, 399 
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LIFO backtracking 159 
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recursion 249-250 
line (see also string) 
anchor optimization 246 
vs. string 55 
line anchor 112-113 
mechanics of matching 150 
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line anchors 
Java 130, 370, 388 
NET 130 
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\p{Lo} 123, 406 
local 296, 341 
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| vs.my 297 
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| overview 87 
NAw 120-121 
localtime 294, 319, 351 
‘lockup (see neverending match) 
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‘longest match finding 334-335 
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| (see also lookaround) 
| auto 410 
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| mimic atomic grouping 174 
| mimic optimizations 258-259 
| negated 
<B> </B> 167 
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lookaround 
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and DFAs 182 
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i mimicking word boundaries 134 
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_ (see also lookaround) 
| Java 368 
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| positive vs. negative 66 
unlimited 408 
Pi method 376 
loose matching (see case-insensitive 
| mode) 
‘Lord, Tom 183 
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Ls 109, 123, 370 
i\p{Lt} 123, 406 
|\p{Lu} 123, 406 
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m/ / introduced 38 
(?m) (see: enhanced line-anchor mode; 
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izm 135 
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Macos 115 
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actions 95 
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| efficiency 179 
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| lazy example 161 
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after-match data 138 

DBIx::DWIW 258 

version covered 91 

word boundaries 134 


\p{N} 122, 395 
‘An 49, 115-116 
| introduced 44 
| machine-dependency 115 
|$°N 300-301, 344-346 
'(?n) 408 
named capture 138 
| mimicking 344-345 
| NET 
/ numeric names 451 
PHP 450-452, 457, 476-477 
with unnamed capture 409 
‘naughty variables. 356 
| OK for debugging 331 
\p(Nd} 123, 368, 406 
‘negated class 
introduced 10-11 
and lazy quantifiers 167 
| Tel 112 
|negative lookahead (see lookahead, 
negative) 
‘negative lookbehind (see lookbehind, 
negative) 
[NEL 109, 370, 407 
|nervous system 85 
nested constructs 
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封面 介绍 


《精通 正则 表达 式 (第 3 版 )》 的 封面 动物 是 猫 头 记 (owls), 这些 捕 猎 者 包括 两 科 (family), 
约 180 种 ,分布 于 世界 各 地 ， 当 然 南 极 洲 除外 。 多 数 种 类 都 在 夜间 出 动 ， 捕 食 活 物 ， 小 到 
昆虫 ， 大 到 野 免 。 


猫 头 记 的 眼睛 很 大 ， 直 视 前 方 ， 因 为 不 易 转 动 ， 猫 头 鹿 必须 转动 头 部 才能 观察 四 周 。 它 们 
的 头 部 最 多 可 以 旋转 270 度 ， 有 些 种 类 的 猫头鹰 其 至 能 转 到 头顶 向 下 。 作 为 捕猎 者 ， 猫 头 
认 在 进化 过 程 中 锻炼 出 极 强 的 辨识 声音 频率 和 方向 的 能 力 。 许 多 种 类 的 猫 头 谭 的 耳 打 是 不 
对 称 的， 这 样 在 微 光 或 暗夜 时 更 容易 定位 猎物 。 一 旦 确定 了 方位 ， 它 们 可 以 依靠 柔软 的 羽 
毛 ， 出 其 不 意 ， 悄 无 声息 地 接近 猎物 。 


长 期 以 来 人 们 将 猫 头 唐 视 为 孵 恶 而 冷血 的 生物 ， 其 实 它 们 完全 不 是 如 此 。 或 许 是 因为 大 眼 
睛 让 人 觉得 狐 点 ， 民 间 传 说 中 一 直 有 它们 的 故事 。 


封面 的 图 像 来 自 Dover Pictorial Archive 的 19 世纪 雕版 画 。 
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精通 正则 表达 式 
本 书 讲解 正则 表达 式 ， 这 种 工具 能 够 提高 工作 效率 、 让 生活 变 得 更 轻松 。 精 心 调 校 后 的 正则 表 
ge 达 式 只 需要 十 多 秒 就 能 完成 以 前 数 小 时 才能 完成 的 枯燥 任务 。 如 今 , 正则 表达 式 已 经 成 为 众多 
语言 及 工具 一 一 Perl PHP, Java, Python, Ruby, MySQL、VB.NET 和 C#( 以 及 .NET Framework 
中 的 任何 语言 ) 一 一 中 的 标准 特性 ， 依 靠 它 ， 你 能 以 之 前 完全 不 敢 设 想 的 方式 进行 复杂 而 精巧 的 文本 处 理 。 


《精通 正则 表达 式 (第 3 版 )》 包 含 了 对 PHP 及 其 正则 表达 式 的 讲解 。 这 一 版 的 更 新 也 反映 了 其 他 语言 的 发 展 ， 
深入 讲解 了 Sun 的 java.util.regex， 并 特别 提 到 了 Java 1.4.2 和 Java 1.5/1.6 之 间 的 众多 差异 。 


本 书 的 内 容 : 
。 “各 种 语言 和 工具 的 功能 比较 

。 ”正则 引擎 的 工作 原理 

。 ”优化 (能 节省 大 量 的 时 间 ) 

。 ”准确 匹配 期 望 的 文本 

。 ”针对 具体 语言 的 章节 

《精通 正则 表达 式 (第 3 版 )》， 以 明晰 轻松 的 笔调 向 程序 员 深入 浅 出 地 讲解 复杂 的 知识 ， 并 给 出 了 现实 世界 
中 复杂 问题 的 解决 办 法 ， 读 者 能 够 立刻 运用 书 中 丰富 的 知识 ， 巧 妙 而 高 效 地 解决 各 种 问题 。 


“如 果 你 的 工作 需要 用 到 正则 表达 式 (即便 你 已 经 有 本 很 不 错 的 关于 开发 语言 的 书 ), 我 还 是 要 向 你 强烈 
推荐 本 书 。 


一 一 Dr.Chris Brown, Linux Format 


“ 毫 不 夸张 地 说 ,《 精 通 正则 表达 式 (第 3 版 )》 是 学 习 该 工具 的 不 二 选择 , 也 是 每 个 程序 员 必 备 的 杰作 。” 


—— Jason Menard, Java Ranch 


“所 有 关于 正则 表达 式 的 书 中 ， 找 不 到 比 这 更 好 的 了 。” 
一 一 Zak Greant, Planet PHP 


责任 编辑 : AHH EMT 
项 目 管理 : RK 


ISBN 978-7-121-04684-1 
ws Broadview 网 上 订购 : www.dearbook.com.cn 


ovm 第 二 书店 * 第 一 服务 | 
www.phei.com.cn 
9°787121°046841" > 


2 ® 
本 书 贴 有 激光 防伪 标志 ， 凡 没有 防伪 标志 者 ， 属 盗版 图 书 。 
O'Reilly Media, Inc. 授权 电子 工业 出 版 社 出 版 定价 : 75.00 T 





www.TopSage.com 


